Apabila bekerja dengan data HTML, menghuraikannya ke dalam format yang mudah digunakan boleh menjadi penting. Python menawarkan beberapa modul yang boleh membantu dengan tugas ini, terutamanya dengan membolehkan anda mengekstrak teg sebagai senarai Python, kamus atau objek.
Salah satu perpustakaan yang digunakan secara meluas untuk penghuraian HTML ialah BeautifulSoup. Ia menyediakan cara yang mudah untuk menavigasi dan memanipulasi dokumen HTML, menyediakan antara muka yang semula jadi dan intuitif. Untuk menghuraikan HTML menggunakan BeautifulSoup, anda boleh menggunakan kod yang serupa dengan yang berikut:
from bs4 import BeautifulSoup html = '<html><head>Heading</head><body attr1="val1"><div class="container"><div>
Setelah dokumen HTML dihuraikan, anda boleh mengakses teg bersarang melalui nama atau ID mereka. Contohnya, untuk mendapatkan kandungan teg div dengan kelas 'bekas' yang terkandung dalam teg badan, anda boleh menggunakan:
content = parsed_html.body.find('div', attrs={'class': 'container'}).text
Satu lagi perpustakaan berguna untuk penghuraian HTML ialah lxml. Ia menawarkan API yang berkuasa untuk bekerja dengan dokumen XML dan HTML, menyediakan ciri berprestasi tinggi dan canggih. Berikut ialah contoh penggunaan lxml untuk penghuraian HTML:
from lxml import etree html = '<html><head>Heading</head><body attr1="val1"><div class="container"><div>
Serupa dengan BeautifulSoup, anda boleh menavigasi dan mengekstrak maklumat daripada HTML yang dihuraikan menggunakan pemilih XPath atau CSS:
content = parsed_html.xpath('//div[@class="container"]//text()')[0]
Apabila memilih perpustakaan untuk penghuraian HTML, pertimbangkan keperluan khusus projek anda. Kedua-dua BeautifulSoup dan lxml menawarkan keupayaan yang mantap, tetapi BeautifulSoup mungkin lebih mudah diakses untuk pemula, manakala lxml menyediakan ciri lanjutan dan pengoptimuman prestasi.
Atas ialah kandungan terperinci Bagaimanakah Perpustakaan BeautifulSoup dan lxml Python Membantu Saya Menghuraikan Data HTML dengan Cekap?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!