Guide du débutant : Comment lire des données tabulaires HTML avec Pandas
Introduction :
Pandas est une puissante bibliothèque Python pour le traitement et l'analyse de données. Il fournit des structures de données flexibles et des outils d'analyse de données, rendant le traitement des données plus simple et plus efficace. Les pandas peuvent non seulement traiter des données au format CSV, Excel et autres formats, mais peuvent également lire directement les données des tableaux HTML. Cet article explique comment utiliser la bibliothèque Pandas pour lire les données de tableaux HTML et fournit des exemples de code spécifiques pour aider les débutants à démarrer rapidement.
Étape 1 : Installez la bibliothèque Pandas
Avant de commencer, assurez-vous que la bibliothèque Pandas est installée dans votre environnement Python. S'il n'est pas encore installé, vous pouvez l'installer avec la commande suivante :
pip install pandas
Étape 2 : Comprendre la structure du tableau HTML
Avant d'utiliser Pandas pour lire les données du tableau HTML, nous devons comprendre la structure du tableau HTML. Les tableaux HTML commencent par une balise de table (table), chaque ligne est enveloppée par une balise de ligne (tr) et chaque cellule est enveloppée par une balise de colonne (td). Voici un exemple simple de tableau HTML :
<table> <tr> <th>姓名</th> <th>年龄</th> <th>性别</th> </tr> <tr> <td>小明</td> <td>20</td> <td>男</td> </tr> <tr> <td>小红</td> <td>22</td> <td>女</td> </tr> </table>
Étape 3 : Utiliser Pandas pour lire les données d'un tableau HTML
Pandas fournit la fonction read_html(), qui peut lire les données du tableau directement à partir de fichiers HTML ou d'URL. Voici un exemple de code pour lire les données d'un tableau HTML :
import pandas as pd # 读取本地HTML文件 df = pd.read_html('your_filepath.html')[0] print(df) # 从URL中读取HTML表格数据 url = 'http://your_url.com' df = pd.read_html(url)[0] print(df)
Dans le code ci-dessus, nous lisons les données du tableau HTML via la fonction read_html() et les stockons dans un objet Pandas DataFrame. [0] signifie que nous lisons uniquement la première table. S'il y a plusieurs tables dans la page, vous pouvez sélectionner l'index de la table à lire selon vos besoins.
Étape 4 : Traiter et analyser les données du tableau HTML
Une fois les données du tableau HTML lues avec succès, nous pouvons utiliser diverses fonctions et méthodes fournies par Pandas pour traiter et analyser les données. Voici quelques exemples de manipulation de données couramment utilisés :
Afficher les premières lignes du tableau
print(df.head())
Afficher les noms de colonnes du tableau
print(df.columns)
Afficher le nombre de lignes et de colonnes du tableau
print(df.shape)
Filtrer les données
# 筛选年龄大于等于20岁的数据 filtered_data = df[df['年龄'] >= 20] print(filtered_data)
Statistiques
# 统计年龄的平均值、最大值和最小值 print(df['年龄'].mean()) print(df['年龄'].max()) print(df['年龄'].min())
Trier les données
# 按照年龄从大到小对数据进行排序 sorted_data = df.sort_values('年龄', ascending=False) print(sorted_data)
Ce qui précède n'est qu'une petite partie de l'exemple de code. Pandas fournit des fonctions de traitement et d'analyse de données très riches. Vous pouvez utiliser les fonctions pertinentes. ceux en fonction de vos besoins spécifiques et de vos méthodes.
Résumé :
Cet article explique comment utiliser la bibliothèque Pandas pour lire les données de tableaux HTML et donne des exemples de code spécifiques. En apprenant et en maîtrisant ces méthodes, les débutants peuvent traiter et analyser les données des tableaux HTML plus facilement et améliorer l'efficacité du traitement des données. J'espère que l'introduction de cet article pourra aider les débutants qui ont besoin d'utiliser Pandas pour lire les données des tableaux HTML.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!