BeautifulSoup, pakej Python yang popular, berfungsi sebagai alat yang berkesan untuk mengikis web, menawarkan set fungsi yang mantap untuk mengekstrak data daripada dokumen HTML. Walau bagaimanapun, keupayaannya tertumpu terutamanya pada penghuraian dan manipulasi HTML, dan ia tidak mempunyai sokongan asli untuk ekspresi XPath.
Nasib baik, terdapat penyelesaian alternatif untuk menggabungkan XPath ke dalam proses mengikis anda. Pustaka lxml menyediakan suite komprehensif alat penghuraian XML dan HTML, termasuk sokongan XPath. Untuk menyepadukan lxml ke dalam aliran kerja BeautifulSoup anda, ikuti langkah berikut:
Berikut ialah contoh yang menunjukkan cara menggunakan lxml untuk pertanyaan XPath:
import lxml.etree from urllib.request import urlopen url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" response = urlopen(url) htmlparser = lxml.etree.HTMLParser() tree = lxml.etree.parse(response, htmlparser) result = tree.xpath("//td[@class='empformbody']")
Adalah penting untuk ambil perhatian bahawa penghurai HTML lxml dan penghurai HTML BeautifulSoup mempunyai kekuatan dan batasan yang unik. Walaupun lxml menawarkan sokongan XPath, penghurai HTMLnya mungkin tidak selembut BeautifulSoup apabila mengendalikan HTML yang cacat. Untuk keserasian optimum, anda boleh menggunakan BeautifulSoup untuk menghuraikan dokumen HTML dan kemudian menukar objek BeautifulSoup yang terhasil kepada pepohon lxml.
Walaupun BeautifulSoup tidak menyokong XPath secara langsung, menggunakan perpustakaan lxml bersama BeautifulSoup menawarkan penyelesaian yang mantap untuk memasukkan pertanyaan XPath ke dalam aliran kerja mengikis anda. Ini membolehkan anda memanfaatkan kuasa ungkapan XPath untuk mengekstrak data dengan tepat daripada dokumen HTML.
Atas ialah kandungan terperinci Bolehkah Kami Menggunakan XPath dengan BeautifulSoup untuk Mengikis Web?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!