Penggunaan ungkapan XPath dalam Python

WBOY
Lepaskan: 2023-08-07 18:10:46
asal
805 orang telah melayarinya

Penggunaan ungkapan XPath dalam Python

Penggunaan ungkapan XPath dalam Python

XPath ialah bahasa yang digunakan untuk navigasi dan carian dalam dokumen XML dan HTML Ia digunakan secara meluas dalam pengikisan data, ujian automasi web, pengekstrakan teks dan medan lain. Dalam Python, kita boleh menggunakan perpustakaan lxml untuk menghuraikan dokumen XML dan HTML dan menggunakan ungkapan XPath untuk mencari dan mengekstrak data yang diperlukan.

  1. Pasang perpustakaan lxml
    Pertama, pastikan anda telah memasang perpustakaan lxml. Jika ia tidak dipasang, anda boleh menggunakan arahan pip untuk memasangnya:
pip install lxml
Salin selepas log masuk
  1. Import perpustakaan lxml
    Sebelum menggunakan perpustakaan lxml, anda perlu mengimportnya dahulu:
from lxml import etree
Salin selepas log masuk
  1. Construct parser provides
    lxml dua parser: etree. HTMLParser digunakan untuk menghuraikan dokumen HTML, etree.XMLParser digunakan untuk menghuraikan dokumen XML. Sebelum menggunakannya, kita perlu membina objek penghurai:
parser = etree.HTMLParser()
Salin selepas log masuk
  1. Menghuraikan dokumen
    Gunakan objek penghurai untuk menghuraikan dokumen dan mengembalikan objek ElementTree:
tree = etree.parse('example.html', parser)
Salin selepas log masuk
  1. Membina ungkapan XPath
    XPath yang terdiri daripada ungkapan XPath laluan Terdiri daripada ungkapan dan fungsi, digunakan untuk mencari nod dalam dokumen. Contohnya, untuk memilih semua teg, anda boleh menggunakan ungkapan XPath berikut:
xpath_expr = '//a'
Salin selepas log masuk
  1. Cari nod
    Gunakan ungkapan XPath untuk mencari nod dan mengembalikan senarai nod:
nodes = tree.xpath(xpath_expr)
Salin selepas log masuk
  1. Ekstrak data
    Boleh diekstrak daripada data yang diperlukan nod. Contohnya, ekstrak kandungan teks semua tag:
texts = [node.text for node in nodes]
print(texts)
Salin selepas log masuk
  1. Kod sampel tambahan

Berikut ialah contoh kod lengkap yang menunjukkan cara mengekstrak semua pautan daripada dokumen HTML:

from lxml import etree

parser = etree.HTMLParser()
tree = etree.parse('example.html', parser)
xpath_expr = '//a'
nodes = tree.xpath(xpath_expr)
links = [node.get('href') for node in nodes]
print(links)
Salin selepas log masuk

Di atas digunakan dalam Python Penggunaan asas ekspresi XPath. Dengan menguasai sintaks XPath dan menggunakan perpustakaan lxml, kami boleh menghuraikan dan mengekstrak data dengan mudah daripada dokumen XML dan HTML, menyediakan alat yang berkuasa untuk tugas seperti analisis data dan rangkak web.

Saya harap artikel ini dapat membantu anda memahami dan menggunakan ungkapan XPath dalam Python. Saya doakan anda berjaya dalam pemprosesan data dan pembangunan web!

Atas ialah kandungan terperinci Penggunaan ungkapan XPath dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan