Panduan Pemula: Cara membaca data jadual HTML dengan Pandas
Pengenalan:
Pandas ialah perpustakaan Python yang berkuasa untuk pemprosesan dan analisis data. Ia menyediakan struktur data yang fleksibel dan alat analisis data, menjadikan pemprosesan data lebih mudah dan lebih cekap. Panda bukan sahaja boleh memproses data dalam CSV, Excel dan format lain, tetapi juga boleh terus membaca data jadual HTML. Artikel ini akan memperkenalkan cara menggunakan pustaka Pandas untuk membaca data jadual HTML dan memberikan contoh kod khusus untuk membantu pemula bermula dengan cepat.
Langkah 1: Pasang pustaka Pandas
Sebelum anda bermula, pastikan anda memasang pustaka Pandas dalam persekitaran Python anda. Jika ia belum dipasang, anda boleh memasangnya dengan arahan berikut:
pip install pandas
Langkah 2: Fahami struktur jadual HTML
Sebelum menggunakan Panda untuk membaca data jadual HTML, kita perlu memahami struktur jadual HTML. Jadual HTML bermula dengan tag jadual (jadual), setiap baris dibalut dengan tag baris (tr), dan setiap sel dibalut dengan tag lajur (td). Berikut ialah contoh jadual HTML ringkas:
<table> <tr> <th>姓名</th> <th>年龄</th> <th>性别</th> </tr> <tr> <td>小明</td> <td>20</td> <td>男</td> </tr> <tr> <td>小红</td> <td>22</td> <td>女</td> </tr> </table>
Langkah 3: Gunakan Pandas untuk membaca data jadual HTML
Pandas menyediakan fungsi read_html(), yang boleh membaca data jadual terus daripada fail HTML atau URL. Berikut ialah contoh kod untuk membaca data jadual HTML:
import pandas as pd # 读取本地HTML文件 df = pd.read_html('your_filepath.html')[0] print(df) # 从URL中读取HTML表格数据 url = 'http://your_url.com' df = pd.read_html(url)[0] print(df)
Dalam kod di atas, kami membaca data jadual HTML melalui fungsi read_html() dan menyimpannya dalam objek Pandas DataFrame. [0] bermakna kita hanya membaca jadual pertama Jika terdapat berbilang jadual dalam halaman, anda boleh memilih indeks jadual untuk dibaca mengikut keperluan.
Langkah 4: Memproses dan menganalisis data jadual HTML
Setelah data jadual HTML berjaya dibaca, kita boleh menggunakan pelbagai fungsi dan kaedah yang disediakan oleh Pandas untuk memproses dan menganalisis data. Berikut ialah beberapa contoh manipulasi data yang biasa digunakan:
Lihat beberapa baris pertama jadual
print(df.head())
Lihat nama lajur jadual
print(df.columns)
Lihat bilangan baris dan lajur jadual
print(df.shape)
# 筛选年龄大于等于20岁的数据 filtered_data = df[df['年龄'] >= 20] print(filtered_data)
# 统计年龄的平均值、最大值和最小值 print(df['年龄'].mean()) print(df['年龄'].max()) print(df['年龄'].min())
# 按照年龄从大到小对数据进行排序 sorted_data = df.sort_values('年龄', ascending=False) print(sorted_data)
Ringkasan:
Atas ialah kandungan terperinci Panduan Pemula Pandas: Petua Membaca Data Jadual HTML. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!