Python を使用して動的 HTML コンテンツから値を抽出する方法
Web サイトからデータを取得するとき、動的コンテンツに遭遇するのはよくあることです。リクエストなどの Python の標準ライブラリを使用すると、これらの値は実行時に読み込まれるため、アクセスできない場合があります。
動的コンテンツを処理するためのソリューション
へこの課題を克服するには、次の解決策を検討してください:
値抽出のための Selenium
Selenium は、処理のための包括的なアプローチを提供します。動的なコンテンツ。使用方法は次のとおりです:
Handlebars-Driven Site の例
Handlebars テンプレートを使用する Web サイトを考えてみましょう。 「中央値」値を抽出するには:
<code class="python">from bs4 import BeautifulSoup from selenium import webdriver driver = webdriver.Firefox() driver.get('http://eve-central.com/home/quicklook.html?typeid=34') html = driver.page_source soup = BeautifulSoup(html) for tag in soup.find_all("div", class_="priceContainer"): print tag.text</code>
この例では、Selenium を使用してレンダリングされた HTML にアクセスし、BeautifulSoup で解析する方法を示します。
以上がPython で動的 HTML コンテンツ値を抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。