Implémentation Python : Comment obtenir l'arborescence de tous les XPaths du site Web ?

Question

Première méthode En essayant d'utiliser Python pour obtenir une arborescence hiérarchique de tous les XPaths du site Web (https://startpagina.nl), j'ai d'abord essayé d'obtenir le XPath de la branche en utilisant : /html/body:fromseleniumimportwebdriverurl='https : //page de démarrage .nl'driver=webdriver.Firefox()driver.get(url)test=driver.fin

P粉127901279 · Answer

Le nombre total de XPaths qui sélectionnent un ou plusieurs éléments est infini (par exemple, il inclura des chemins de la forme /a/b/../b/../b/../b 这样的路径），但是如果您限制将自己添加到 /a[i]/b[j]/c[k], alors le nombre de chemins est égal au nombre d'éléments, et "l'arbre" des XPaths est isomorphe à l'arborescence XML d'origine

Si vous souhaitez un chemin différent sans prédicat numérique, comme /a/b/c、/a/b/d, alors le moyen le plus simple est probablement de parcourir le document XML, d'obtenir le chemin de chaque élément (sous cette forme) et d'éliminer les doublons. Si vous souhaitez une structure arborescente au lieu d'une simple liste de chemins, utilisez des cartes/dictionnaires imbriqués pour la construire.

Il se plaint/html/body/ 的原因是合法的 XPath 表达式不能包含尾随 /.

Méthode 1

Méthode 2

Question

Résultat attendu