JavaScript 対応ページのリクエスト
リクエストは Python 用の強力な HTTP ライブラリですが、依存度の高い Web サイトからコンテンツを抽出するのは困難です。 JavaScriptで。これは、通常、JavaScript がクライアント側で実行され、最初のページの読み込み後にコンテンツを動的に生成するためです。
解決策: Requests-HTML
幸いなことに、Requests コミュニティが開発されました。解決策:requests-html。このモジュールは、リクエストに JavaScript レンダリング機能を追加し、JavaScript を使用するページを操作できるようにします。
使用法:
リクエストの HTML を使用するには:
JavaScript のレンダリング:
コンテンツへのアクセス:
JavaScript をレンダリングした後、次の場合と同様にコンテンツにアクセスできます。通常のHTML。例:
<code class="python">r.html.find('#myElementID').text</code>
これは、ID「myElementID」を持つ HTML 要素のコンテンツを返します。
追加機能:
リクエスト-HTML は BeautifulSoup をラップし、次のような追加アクションを実行できるようにします。
Requests-HTML を使用すると、リクエストのシンプルさと強力さを犠牲にすることなく、JavaScript 対応の Web サイトからデータを簡単に取得できます。
以上がPython のリクエストを使用して、JavaScript に大きく依存している Web サイトからコンテンツをスクレイピングするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。