BeautifulSoup での XPath の使用: 2 つのライブラリの物語
人気のある BeautifulSoup ライブラリは、HTML の解析とデータのスクレイピングに便利な方法を提供します。ただし、Web スクレイピングで広く使用されているにもかかわらず、XPath 機能はネイティブに欠如しています。
XPath 式を利用するには、BeautifulSoup との互換性と完全な XPath 1.0 サポートを提供する代替ライブラリである lxml の採用を検討してください。 lxml で XPath を使用する方法は次のとおりです。
from lxml import etree # Parse HTML tree = etree.parse(response, etree.HTMLParser()) # Search using XPath results = tree.xpath(xpathselector)
外部依存関係を避けたい場合は、BeautifulSoup が CSS セレクターのサポートを提供します。これにより、CSS ステートメントを XPath 式に変換することで、より簡潔な検索が可能になります:
for cell in soup.select('table#foobar td.empformbody'): # Perform desired operations on table cells
以上がBeautifulSoup で XPath を使用できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。