ユーザーがウェブサイト A にアクセスしたときに、さまざまなウェブサイトから情報を集約する Chrome 拡張機能を構築しようとしています。
リーリーtotalViolations を出力すると、NULL が返されます。そこで、スクレイピングした HTML を印刷したところ、Web サイトで直接見た HTML コードとはまったく異なる JavaScript コードが得られたことに気付きました。サイトが JavaScript マスキングを使用しているか、HTML を正しく取得していないと思われます。
リーリー私の質問は、DOM を解析して拡張機能に置きたい Web サイトからすべての情報を取得できるように、HTML を正しく抽出する方法です。ありがとう。
応答として Javascript を受け取るという事実:
これは、ブラウザの開発ツールを開いた状態でページをロードし、送信されるリクエストを注意深く調べる必要があることを意味します。説明によると、ページにアクセスすると、送信された最初のリクエストで Javascript コードが読み込まれ、その後処理され、さらなるリクエストがサーバーに送信される可能性があります。 URL、リクエスト ヘッダーとペイロード、レスポンスを含むリクエストを注意深く調べてください。
送信されたリクエストをコピーし、レスポンスを解析する必要があります。応答が最終的に HTML になった場合は、すでに試した方法でそれを解析できます (変更されるのは、要求がどこにどのように送信されるかです)。そうでない場合、応答が HTML ではなく、JSON などの他のものである場合は、次に、Web サイトに表示されるターゲット HTML を詳しく調べて、生のサーバー応答を HTML のようなコードに変換するコードを実装します。