Python を使用して動的 HTML コンテンツ値を抽出する方法-Python チュートリアル-php.cn

Python を使用して動的 HTML コンテンツ値を抽出する方法

Susan Sarandon

リリース： 2024-10-19 07:47:30

オリジナル

421 人が閲覧しました

How to Extract Dynamic HTML Content Values Using Python?

Python を使用した動的 HTML コンテンツからの値の取得

動的に読み込まれたコンテンツを含む Web サイトからデータを抽出しようとする場合、ライブラリを使用した標準的な Web スクレイピングアプローチが使用されます。 urllib のように、制限が発生する可能性があります。これは、ブラウザーがページ上に動的要素をレンダリングするために JavaScript テンプレートを使用することが多いためです。その結果、これらのテンプレートは、Web スクレイピングライブラリによって受信される生の HTML には存在しません。

解決策

これを克服するには、いくつかのオプションが利用可能です。

AJAX JSON を直接解析する: このアプローチでは、使用される特定の AJAX リクエストの知識と、JSON 応答を手動で解析する必要があります。
オフライン JavaScript インタープリターの使用: これには、SpiderMonkey や Crowbar などのツールを使用して、JavaScript テンプレートのレンダリングプロセスを解釈し、目的の出力を生成することが含まれます。
ブラウザオートメーションツールの使用: Selenium や Watir などのブラウザオートメーションツールヘッドレスブラウザインスタンスを制御し、動的に生成されたコンテンツを含むレンダリングされた HTML を取得できます。

Selenium と BeautifulSoup を使用する

Selenium は便利な方法を提供しますWeb サイトからレンダリングされた HTML コンテンツを取得し、HTML を効率的に解析するために BeautifulSoup を使用できます。以下は、指定された Web サイトで機能するように変更されたコードスニペットです:

<code class="python">from bs4 import BeautifulSoup
from selenium import webdriver

driver = webdriver.Firefox()
driver.get(url)

html = driver.page_source
soup = BeautifulSoup(html)

for tag in soup.find_all("span", class_="formatPrice median"):
    print(tag.text)</code>

ログイン後にコピー

このコードは、BeautifulSoup の find_all メソッドを使用して、目的の値に対応する特定の CSS クラス名を検索します。この場合、クラス名は formatPrice median です。

結論

Selenium などのブラウザ自動化ツールを使用すると、動的に生成された HTML コンテンツから効果的に値を取得できます。 JavaScript テンプレートまたは AJAX ベースのデータ読み込みを含む Web スクレイピングシナリオのための堅牢なソリューション。

以上がPython を使用して動的 HTML コンテンツ値を抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。