Python の実装: Web サイト内のすべての XPath のツリー構造を取得するにはどうすればよいですか?

Question

方法 1 Python を使用して Web サイト (https://startpagina.nl) 内のすべての xpath の階層ツリーを取得しようとしたとき、最初に /html/body:fromseleniumimportwebdriverurl='https を使用してブランチの xpath を取得しようとしました。 //startpagina .nl'driver=webdriver.Firefox()driver.get(url)test=driver.fin

P粉127901279 · Answer

1 つ以上の要素を選択する XPath の総数は無制限です (たとえば、/a/b/../b/../b/../b のようなパスが含まれます)。ただし、/a[i]/b[j]/c[k] の形式のパスに限定すると、パスの数は要素の数に等しく、「ツリー」は要素の数に等しくなります。 XPaths は、元の XML ツリーの同型性と同じです。

数値述語のない別のパス (/a/b/c、/a/b/d など) が必要な場合、おそらく最も簡単な方法は、XML ドキュメントを反復処理することです。、各要素のパスを (この形式で) 取得し、重複を削除します。パスの単純なリストではなくツリー構造が必要な場合は、ネストされたマップ/辞書を使用してそれを構築します。

/html/body/ について問題が発生する理由は、正当な XPath 式に末尾の / を含めることができないためです。

方法 1

方法 2

リーリー