Rumah > pembangunan bahagian belakang > Tutorial Python > Panduan Pemula Pandas: Petua Membaca Data Jadual HTML

Panduan Pemula Pandas: Petua Membaca Data Jadual HTML

WBOY
Lepaskan: 2024-01-09 08:10:34
asal
1614 orang telah melayarinya

Panduan Pemula Pandas: Petua Membaca Data Jadual HTML

Panduan Pemula: Cara membaca data jadual HTML dengan Pandas

Pengenalan:
Pandas ialah perpustakaan Python yang berkuasa untuk pemprosesan dan analisis data. Ia menyediakan struktur data yang fleksibel dan alat analisis data, menjadikan pemprosesan data lebih mudah dan lebih cekap. Panda bukan sahaja boleh memproses data dalam CSV, Excel dan format lain, tetapi juga boleh terus membaca data jadual HTML. Artikel ini akan memperkenalkan cara menggunakan pustaka Pandas untuk membaca data jadual HTML dan memberikan contoh kod khusus untuk membantu pemula bermula dengan cepat.

Langkah 1: Pasang pustaka Pandas
Sebelum anda bermula, pastikan anda memasang pustaka Pandas dalam persekitaran Python anda. Jika ia belum dipasang, anda boleh memasangnya dengan arahan berikut:

pip install pandas
Salin selepas log masuk

Langkah 2: Fahami struktur jadual HTML
Sebelum menggunakan Panda untuk membaca data jadual HTML, kita perlu memahami struktur jadual HTML. Jadual HTML bermula dengan tag jadual (jadual), setiap baris dibalut dengan tag baris (tr), dan setiap sel dibalut dengan tag lajur (td). Berikut ialah contoh jadual HTML ringkas:

<table>
  <tr>
    <th>姓名</th>
    <th>年龄</th>
    <th>性别</th>
  </tr>
  <tr>
    <td>小明</td>
    <td>20</td>
    <td>男</td>
  </tr>
  <tr>
    <td>小红</td>
    <td>22</td>
    <td>女</td>
  </tr>
</table>
Salin selepas log masuk

Langkah 3: Gunakan Pandas untuk membaca data jadual HTML
Pandas menyediakan fungsi read_html(), yang boleh membaca data jadual terus daripada fail HTML atau URL. Berikut ialah contoh kod untuk membaca data jadual HTML:

import pandas as pd

# 读取本地HTML文件
df = pd.read_html('your_filepath.html')[0]
print(df)

# 从URL中读取HTML表格数据
url = 'http://your_url.com'
df = pd.read_html(url)[0]
print(df)
Salin selepas log masuk

Dalam kod di atas, kami membaca data jadual HTML melalui fungsi read_html() dan menyimpannya dalam objek Pandas DataFrame. [0] bermakna kita hanya membaca jadual pertama Jika terdapat berbilang jadual dalam halaman, anda boleh memilih indeks jadual untuk dibaca mengikut keperluan.

Langkah 4: Memproses dan menganalisis data jadual HTML
Setelah data jadual HTML berjaya dibaca, kita boleh menggunakan pelbagai fungsi dan kaedah yang disediakan oleh Pandas untuk memproses dan menganalisis data. Berikut ialah beberapa contoh manipulasi data yang biasa digunakan:

  1. Lihat beberapa baris pertama jadual

    print(df.head())
    Salin selepas log masuk
  2. Lihat nama lajur jadual

    print(df.columns)
    Salin selepas log masuk
  3. Lihat bilangan baris dan lajur jadual

    print(df.shape)
    Salin selepas log masuk
  4. Tapis data
  5. # 筛选年龄大于等于20岁的数据
    filtered_data = df[df['年龄'] >= 20]
    print(filtered_data)
    Salin selepas log masuk
  6. Statistik
  7. # 统计年龄的平均值、最大值和最小值
    print(df['年龄'].mean())
    print(df['年龄'].max())
    print(df['年龄'].min())
    Salin selepas log masuk
  8. Isih data
  9. # 按照年龄从大到小对数据进行排序
    sorted_data = df.sort_values('年龄', ascending=False)
    print(sorted_data)
    Salin selepas log masuk

    Di atas hanyalah sebahagian kecil daripada kod sampel dan analisis anda boleh menggunakan fungsi yang sangat kaya yang mengikut keperluan khusus anda.


    Ringkasan:

    Artikel ini memperkenalkan cara menggunakan pustaka Pandas untuk membaca data jadual HTML dan memberikan contoh kod khusus. Dengan mempelajari dan menguasai kaedah ini, pemula boleh memproses dan menganalisis data jadual HTML dengan lebih mudah dan meningkatkan kecekapan pemprosesan data. Saya berharap pengenalan artikel ini dapat membantu pemula yang perlu menggunakan Panda untuk membaca data jadual HTML. 🎜

    Atas ialah kandungan terperinci Panduan Pemula Pandas: Petua Membaca Data Jadual HTML. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan