如何使用 Python 提取动态 HTML 内容值？-Python教程-PHP中文网

如何使用 Python 提取动态 HTML 内容值？

Susan Sarandon

发布： 2024-10-19 07:47:30

原创

408 人浏览过

How to Extract Dynamic HTML Content Values Using Python?

使用 Python 从动态 HTML 内容中检索值

尝试从动态加载内容的网站中提取数据时，使用库的标准 Web 抓取方法像 urllib 可能会遇到限制。这是因为浏览器通常使用 JavaScript 模板来呈现页面上的动态元素。因此，这些模板不会出现在网页抓取库收到的原始 HTML 中。

解决方案

要克服这个问题，有几个选项可用：

直接解析 AJAX JSON：此方法需要了解所使用的特定 AJAX 请求并手动解析 JSON 响应。
使用离线 JavaScript 解释器： 这涉及使用 SpiderMonkey 或 Crowbar 等工具来解释 JavaScript 模板渲染过程并生成所需的输出。
使用浏览器自动化工具： Selenium 或 Watir 等浏览器自动化工具允许您控制无头浏览器实例并检索渲染的 HTML，其中包括动态生成的内容。

使用 Selenium 和 BeautifulSoup

Selenium 提供了一种便捷的方法从网站获取渲染的 HTML 内容，BeautifulSoup 可以用来有效地解析 HTML。下面是一个适用于给定网站的修改后的代码片段：

<code class="python">from bs4 import BeautifulSoup
from selenium import webdriver

driver = webdriver.Firefox()
driver.get(url)

html = driver.page_source
soup = BeautifulSoup(html)

for tag in soup.find_all("span", class_="formatPrice median"):
    print(tag.text)</code>

登录后复制

此代码使用 BeautifulSoup 的 find_all 方法来搜索与所需值相对应的特定 CSS 类名称。在本例中，类名称为 formatPrice Median。

结论

通过使用 Selenium 等浏览器自动化工具，您可以有效地从动态生成的 HTML 内容中检索值，提供针对涉及 JavaScript 模板或基于 AJAX 的数据加载的网页抓取场景的强大解决方案。

以上是如何使用 Python 提取动态 HTML 内容值？的详细内容。更多信息请关注PHP中文网其他相关文章！