首页 > 后端开发 > Python教程 > 网页抓取 com selenium

网页抓取 com selenium

Susan Sarandon
发布: 2025-01-23 18:11:17
原创
557 人浏览过

本文已经组织良好,并以正确的葡萄牙语书写。 唯一的建议是提高某些要点的清晰度,并为不熟悉网络抓取和 IBGE 网站的读者添加更多背景信息。 修订版如下:

Web scraping com selenium


使用 Selenium 和 Python 自动收集 IBGE 通货膨胀数据

本教程演示如何使用 Python 中的 Selenium 库自动从 IBGE(巴西地理与统计研究所)收集通货膨胀数据。 目的是从 SIDRA 网站(IBGE 自动恢复系统)提取 IPCA(全国消费者价格指数)百分比变化的数据。


数据收集步骤

开始之前,请确保您的系统上安装了 Python 以及包管理器pip


1。环境准备

1.1 创建项目:

为您的项目创建一个新文件夹。在其中创建一个 Jupyter Notebook 文件 (.ipynb) 或一个 Python 文件 (.py)。 Jupyter Notebook 可以轻松一步步查看和运行代码。

1.2 安装库:

打开终端或命令提示符,导航到项目文件夹并运行以下命令来安装必要的库:

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
登录后复制
登录后复制

创建一个虚拟环境(推荐)来隔离本项目的依赖:

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
登录后复制
登录后复制

激活虚拟环境后,再次运行库安装命令。 要将依赖项保存在 requirements.txt 文件中,请使用:

<code class="language-bash">pip freeze > requirements.txt</code>
登录后复制

这使您可以轻松地在另一台计算机上重现环境。

1.3 ChromeDriver 下载:

下载与您的 Google Chrome 版本兼容的 ChromeDriver 版本。 您可以在ChromeDriver官网搜索您的Chrome版本对应的版本找到下载链接(前往chrome://settings/help查看您的版本)。 下载后,解压文件并记住它的保存位置。


2。 Chrome 驱动程序配置

2.1 添加到路径(Windows):

为了更轻松地使用 ChromeDriver,请将 ChromeDriver 安装文件夹的路径添加到 PATH 环境变量中。 请按照以下步骤操作:

  1. 在开始菜单中搜索“环境变量”。
  2. 点击“编辑系统环境变量”。
  3. 在“系统变量”部分中,选择“路径”并单击“编辑”。
  4. 点击“新建”并添加ChromeDriver所在文件夹的完整路径(例如:C:caminhoparachromedriver)。
  5. 保存更改并重新启动终端或命令提示符。

2.2 验证:

要检查 ChromeDriver 是否配置正确,请打开终端并输入:

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
登录后复制
登录后复制

应显示 ChromeDriver 版本。


3。用于自动化的 Python 脚本

下面的Python代码使用Selenium访问SIDRA页面,选择数据并提取IPCA百分比变化信息。 请记住将 'C:\caminho\para\chromedriver.exe' 替换为您的 ChromeDriver 的正确路径。

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
登录后复制
登录后复制

4。执行和结果

运行 Python 脚本。 如果一切配置正确,脚本将:

  1. 访问 SIDRA 页面。
  2. 选择所有数据。
  3. 提取百分比变化值。
  4. 将值打印到控制台。
  5. 将页面的 HTML 保存在文件中 pagina_carregada.html(对于调试很有用)。

提取的数据可以进一步处理,例如创建图表或报告。


最终考虑因素

本教程提供了自动化 IBGE 数据收集的基础。 请记住,站点结构可能会发生变化,从而需要调整 XPath 代码。 监视站点的更改并根据需要更新脚本非常重要。 此外,收集数据时请尊重 IBGE 网站的使用条款。

此版本提高了清晰度,添加了有关环境配置的重要信息,并为网页抓取经验较少的用户提供了更完整的介绍。 结构也经过了轻微的重组,以获得更好的流动性。

以上是网页抓取 com selenium的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板