Python での XPath 式の使用法

WBOY
リリース: 2023-08-07 18:10:46
オリジナル
805 人が閲覧しました

Python での XPath 式の使用法

XPath 式の Python での使用法

XPath は、XML および HTML ドキュメント内を移動および検索するための言語であり、データ スクレイピング、Web 自動テスト、テキストで広く使用されています。抽出およびその他の分野。 Python では、lxml ライブラリを使用して XML ドキュメントと HTML ドキュメントを解析し、XPath 式を使用して必要なデータを検索して抽出できます。

  1. lxml ライブラリのインストール
    まず、lxml ライブラリがインストールされていることを確認します。インストールされていない場合は、pip コマンドを使用してインストールできます:
pip install lxml
ログイン後にコピー
  1. lxml ライブラリのインポート
    lxml ライブラリを使用する前に、最初にそれをインポートする必要があります:
from lxml import etree
ログイン後にコピー
  1. パーサーの構築
    lxml は 2 つのパーサーを提供します。etree.HTMLParser は HTML ドキュメントの解析に使用され、etree.XMLParser は XML ドキュメントの解析に使用されます。これを使用する前に、まずパーサー オブジェクトを構築する必要があります:
parser = etree.HTMLParser()
ログイン後にコピー
  1. ドキュメントを解析する
    パーサー オブジェクトを使用してドキュメントを解析し、ElementTree オブジェクトを返します:
tree = etree.parse('example.html', parser)
ログイン後にコピー
  1. XPath 式の構築
    XPath 式はパス式と関数で構成され、ドキュメント内のノードを見つけるために使用されます。たとえば、すべての a タグを選択するには、次の XPath 式を使用できます:
xpath_expr = '//a'
ログイン後にコピー
  1. ノードの検索
    XPath 式を使用してノードを見つけ、ノード リストを返します:
nodes = tree.xpath(xpath_expr)
ログイン後にコピー
  1. データの抽出
    ノードから必要なデータを抽出できます。たとえば、すべての a タグのテキスト コンテンツを抽出します。
texts = [node.text for node in nodes]
print(texts)
ログイン後にコピー
  1. 補足サンプル コード

以下は、データを抽出する方法を示す完全なサンプル コードです。 HTML ドキュメントからすべてのリンクを抽出します:

from lxml import etree

parser = etree.HTMLParser()
tree = etree.parse('example.html', parser)
xpath_expr = '//a'
nodes = tree.xpath(xpath_expr)
links = [node.get('href') for node in nodes]
print(links)
ログイン後にコピー

上記は、Python での XPath 式の基本的な使用法です。 XPath 構文をマスターし、lxml ライブラリを使用すると、XML ドキュメントや HTML ドキュメントからデータを簡単に解析して抽出でき、データ分析や Web クローリングなどのタスクに強力なツールを提供できます。

この記事が、Python での XPath 式の理解と使用に役立つことを願っています。データ処理と Web 開発での成功を祈っています。

以上がPython での XPath 式の使用法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート