Bolehkah XPath Disepadukan dengan BeautifulSoup?
BeautifulSoup, pustaka penghuraian HTML, membolehkan pengguna mendapatkan semula teg tertentu menggunakan kaedah seperti findAll. Walau bagaimanapun, ia tidak mempunyai sokongan untuk ekspresi XPath.
Masukkan lxml
lxml, perpustakaan alternatif, menyediakan sokongan XPath dan menampilkan mod serasi BeautifulSoup. Penghurai HTML standard lxml berprestasi setanding dengan BeautifulSoup dalam mengendalikan HTML yang rosak dan berpotensi menawarkan pemprosesan yang lebih pantas.
Untuk menggunakan keupayaan XPath lxml:
Kelas CSSSelector menterjemah sintaks CSS ke dalam ungkapan XPath, memudahkan carian untuk elemen tertentu.
import lxml.html import requests url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" response = requests.get(url, stream=True) response.raw.decode_content = True tree = lxml.html.parse(response.raw) tree.xpath(xpathselector)
Sokongan Pemilih CSS dengan BeautifulSoup
BeautifulSoup secara asalnya menawarkan sokongan pemilih CSS yang komprehensif, membenarkan fungsi yang sama seperti kelas CSSSelector lxml:
from lxml.cssselect import CSSSelector td_empformbody = CSSSelector('td.empformbody') for elem in td_empformbody(tree): # Process found elements.
Atas ialah kandungan terperinci Bolehkah Keupayaan XPath lxml Bersepadu dengan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!