Pelaksanaan Python: Bagaimana untuk mendapatkan struktur pokok semua XPath dalam laman web?

Question

Kaedah Satu Apabila cuba menggunakan Python untuk mendapatkan pepohon hierarki semua xpath dalam tapak web (https://startpagina.nl), saya mula-mula cuba mendapatkan xpath cawangan menggunakan: /html/body:fromseleniumimportwebdriverul='https: //startpagina .nl'driver=webdriver.Firefox()driver.get(url)test=driver.fin

P粉127901279 · Answer

Jumlah bilangan XPaths yang memilih satu atau lebih elemen adalah tidak terhingga (cth. ia akan menyertakan laluan dalam bentuk /a/b/../b/../b/../b 这样的路径），但是如果您限制将自己添加到 /a[i]/b[j]/c[k], kemudian bilangan laluan sama dengan bilangan elemen dan "pokok" XPaths adalah isomorfik kepada pokok XML asal

Jika anda mahukan laluan berbeza tanpa predikat berangka, seperti /a/b/c、/a/b/d, maka cara paling mudah mungkin adalah dengan menggelung dokumen XML, dapatkan laluan untuk setiap elemen (dalam bentuk ini) dan hapuskan pendua. Jika anda mahukan struktur pokok dan bukannya senarai laluan yang ringkas, gunakan peta/kamus bersarang untuk membinanya.

Ia mengeluh /html/body/ 的原因是合法的 XPath 表达式不能包含尾随 /.

Kaedah 1

Kaedah 2

Soalan

Output yang dijangkakan