初心者ガイド: Pandas を使用して HTML テーブル データを読み取る方法
はじめに:
Pandas は、データ処理と分析のための強力な Python ライブラリです。柔軟なデータ構造とデータ分析ツールを提供し、データ処理をよりシンプルかつ効率的にします。 Pandas は、CSV、Excel、その他の形式のデータを処理できるだけでなく、HTML テーブル データを直接読み取ることもできます。この記事では、Pandas ライブラリを使用して HTML テーブル データを読み取る方法を紹介し、初心者がすぐに使い始めるのに役立つ具体的なコード例を示します。
ステップ 1: Pandas ライブラリをインストールする
始める前に、Python 環境に Pandas ライブラリがインストールされていることを確認してください。まだインストールされていない場合は、次のコマンドを使用してインストールできます。
pip install pandas
ステップ 2: HTML テーブル構造を理解する
Pandas を使用して HTML テーブル データを読み取る前に、HTML テーブル データの構造を理解する必要があります。 HTML テーブル。 HTML テーブルはテーブル タグ (table) で始まり、各行は行タグ (tr) で囲まれ、各セルは列タグ (td) で囲まれます。以下は、単純な HTML テーブルの例です。
<table> <tr> <th>姓名</th> <th>年龄</th> <th>性别</th> </tr> <tr> <td>小明</td> <td>20</td> <td>男</td> </tr> <tr> <td>小红</td> <td>22</td> <td>女</td> </tr> </table>
ステップ 3: Pandas を使用して HTML テーブル データを読み取る
Pandas には、HTML ファイルまたは URL からテーブル データを直接読み取ることができる read_html() 関数が用意されています。以下は、HTML テーブル データを読み取るためのサンプル コードです。
import pandas as pd # 读取本地HTML文件 df = pd.read_html('your_filepath.html')[0] print(df) # 从URL中读取HTML表格数据 url = 'http://your_url.com' df = pd.read_html(url)[0] print(df)
上記のコードでは、read_html() 関数を通じて HTML テーブル データを読み取り、Pandas DataFrame オブジェクトに保存します。 [0] は最初のテーブルのみを読み取ることを意味します。ページ内に複数のテーブルがある場合は、必要に応じて読み取るテーブル インデックスを選択できます。
ステップ 4: HTML テーブル データの処理と分析
HTML テーブル データが正常に読み取られたら、Pandas が提供するさまざまな関数とメソッドを使用してデータを処理および分析できます。一般的に使用されるデータ操作の例を次に示します。
テーブルの最初の数行を表示
print(df.head())
テーブルの列名を表示
print(df.columns)
テーブルの行数と列数の表示
print(df.shape)
# 筛选年龄大于等于20岁的数据 filtered_data = df[df['年龄'] >= 20] print(filtered_data)
# 统计年龄的平均值、最大值和最小值 print(df['年龄'].mean()) print(df['年龄'].max()) print(df['年龄'].min())
# 按照年龄从大到小对数据进行排序 sorted_data = df.sort_values('年龄', ascending=False) print(sorted_data)
この記事では、Pandas ライブラリを使用して HTML テーブル データを読み取る方法を紹介し、具体的なコード例を示します。これらの方法を学び、マスターすることで、初心者でも HTML テーブル データをより簡単に処理および分析でき、データ処理効率を向上させることができます。この記事の紹介が、HTML テーブル データを読み取るために Pandas を使用する必要がある初心者に役立つことを願っています。
以上がPandas 初心者ガイド: HTML テーブル データの読み取りのヒントの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。