Python实现：如何获取网站中所有XPath的树形结构？

Question

方法一在尝试使用Python获取网站(https://startpagina.nl)中所有xpath的分层树时，我首先尝试使用以下方法获取分支的xpath：/html/body：fromseleniumimportwebdriverurl='https://startpagina.nl'driver=webdriver.Firefox()driver.get(url)test=driver.fin

P粉127901279 · Answer

选择一个或多个元素的 XPath 总数是无限的（例如，它将包括像 /a/b/../b/../b/../b 这样的路径），但是如果您限制将自己添加到 /a[i]/b[j]/c[k] 形式的路径，则路径数等于元素数，并且 XPaths 的“树”与原始 XML 树同构.

如果您想要不带数字谓词的不同路径，例如 /a/b/c、/a/b/d，那么最简单的方法可能是遍历 XML 文档，获取每个元素的路径（以这种形式）并消除重复项。如果您想要树结构而不是简单的路径列表，请使用嵌套地图/字典来构建它。

它抱怨 /html/body/ 的原因是合法的 XPath 表达式不能包含尾随 /。

方法一

方法二

问题

预期输出