XPath 可以與 BeautifulSoup 一起使用進行網頁擷取嗎？-Python教學-PHP中文網

XPath 可以與 BeautifulSoup 一起使用進行網頁擷取嗎？

DDD

發布： 2024-11-09 21:46:02

原創

1072 人瀏覽過

Can XPath Be Used with BeautifulSoup for Web Scraping?

是否可以將 XPath 與 BeautifulSoup 整合？

在您的網頁抓取工作中，您正在尋求利用 XPath 與 BeautifulSoup 從「td」標籤檢索特定資料裝飾有「empformbody」類別。雖然 BeautifulSoup 本身不支援 XPath，但讓我們探索一個可行的解決方案。

XPath 與 BeautifulSoup 的相容性

不幸的是，BeautifulSoup 缺乏對 XPath 表達式的內建支援。但是，您的目標可以透過合併 lxml 庫來實現，該庫提供 XPath 查詢功能。 lxml 提供了 BeautifulSoup 相容模式，有助於將 XPath 無縫整合到您現有的 BeautifulSoup 設定中。

使用 lxml 實作 XPath

要使用 XPath 與 lxml，首先解析將您的 HTML 文件放入 lxml 樹中。您可以透過利用.xpath() 方法搜尋元素來實現此目的：

from lxml import etree

tree = etree.parse('your_html_file.html')
tree.xpath(xpathselector)

登入後複製

範例程式碼

這裡是提取「td」標籤的範例程式碼使用XPath 的'empformbody' 類別：

from lxml import etree

url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html"
response = urlopen(url)
tree = etree.parse(response, etree.HTMLParser())
xpathselector = '//td[@class="empformbody"]'
result = tree.xpath(xpathselector)

登入後複製

利用CSS選擇器支援

lxml 提供了額外的 CSS 選擇器支持，可以簡化對特定元素的搜尋。這允許您將 CSS 語句轉換為 XPath 表達式。以下是實現此目標的方法：

from lxml.cssselect import CSSSelector

td_empformbody = CSSSelector('td.empformbody')
for elem in td_empformbody(tree):
    # Do something with these table cells.

登入後複製

在BeautifulSoup 中使用CSS 選擇器的替代路線

雖然BeautifulSoup 不直接支援XPath，但它具有全面的CSS 選擇器支援。以下是如何在 BeautifulSoup 中使用 CSS 選擇器：

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(html_document)
for cell in soup.select('table#foobar td.empformbody'):
    # Do something with these table cells.

登入後複製

透過利用 lxml 的強大功能或在 BeautifulSoup 中利用 CSS 選擇器，您可以有效地利用 XPath 表達式進行資料擷取。

以上是XPath 可以與 BeautifulSoup 一起使用進行網頁擷取嗎？的詳細內容。更多資訊請關注PHP中文網其他相關文章！