网页抓取 com selenium-Python教程-PHP中文网

网页抓取 com selenium

Susan Sarandon

发布： 2025-01-23 18:11:17

原创

601 人浏览过

本文已经组织良好，并以正确的葡萄牙语书写。唯一的建议是提高某些要点的清晰度，并为不熟悉网络抓取和 IBGE 网站的读者添加更多背景信息。修订版如下：

Web scraping com selenium

使用 Selenium 和 Python 自动收集 IBGE 通货膨胀数据

本教程演示如何使用 Python 中的 Selenium 库自动从 IBGE（巴西地理与统计研究所）收集通货膨胀数据。目的是从 SIDRA 网站（IBGE 自动恢复系统）提取 IPCA（全国消费者价格指数）百分比变化的数据。

数据收集步骤

开始之前，请确保您的系统上安装了 Python 以及包管理器pip。

1。环境准备

1.1 创建项目：

为您的项目创建一个新文件夹。在其中创建一个 Jupyter Notebook 文件 (.ipynb) 或一个 Python 文件 (.py)。 Jupyter Notebook 可以轻松一步步查看和运行代码。

1.2 安装库：

打开终端或命令提示符，导航到项目文件夹并运行以下命令来安装必要的库：

pip install notebook selenium webdriver-manager pandas

登录后复制

创建一个虚拟环境（推荐）来隔离本项目的依赖：

python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)

登录后复制

激活虚拟环境后，再次运行库安装命令。要将依赖项保存在 requirements.txt 文件中，请使用：

pip freeze > requirements.txt

登录后复制

这使您可以轻松地在另一台计算机上重现环境。

1.3 ChromeDriver 下载：

下载与您的 Google Chrome 版本兼容的 ChromeDriver 版本。您可以在ChromeDriver官网搜索您的Chrome版本对应的版本找到下载链接（前往chrome://settings/help查看您的版本）。下载后，解压文件并记住它的保存位置。

2。 Chrome 驱动程序配置

2.1 添加到路径（Windows）：

为了更轻松地使用 ChromeDriver，请将 ChromeDriver 安装文件夹的路径添加到 PATH 环境变量中。请按照以下步骤操作：

在开始菜单中搜索“环境变量”。
点击“编辑系统环境变量”。
在“系统变量”部分中，选择“路径”并单击“编辑”。
点击“新建”并添加ChromeDriver所在文件夹的完整路径（例如：C:caminhoparachromedriver）。
保存更改并重新启动终端或命令提示符。

2.2 验证：

要检查 ChromeDriver 是否配置正确，请打开终端并输入：

pip install notebook selenium webdriver-manager pandas

登录后复制

应显示 ChromeDriver 版本。

3。用于自动化的 Python 脚本

下面的Python代码使用Selenium访问SIDRA页面，选择数据并提取IPCA百分比变化信息。 请记住将 'C:\caminho\para\chromedriver.exe' 替换为您的 ChromeDriver 的正确路径。

python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)

登录后复制