本文已经组织良好,并以正确的葡萄牙语书写。 唯一的建议是提高某些要点的清晰度,并为不熟悉网络抓取和 IBGE 网站的读者添加更多背景信息。 修订版如下:
本教程演示如何使用 Python 中的 Selenium 库自动从 IBGE(巴西地理与统计研究所)收集通货膨胀数据。 目的是从 SIDRA 网站(IBGE 自动恢复系统)提取 IPCA(全国消费者价格指数)百分比变化的数据。
开始之前,请确保您的系统上安装了 Python 以及包管理器pip
。
为您的项目创建一个新文件夹。在其中创建一个 Jupyter Notebook 文件 (.ipynb
) 或一个 Python 文件 (.py
)。 Jupyter Notebook 可以轻松一步步查看和运行代码。
打开终端或命令提示符,导航到项目文件夹并运行以下命令来安装必要的库:
<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
创建一个虚拟环境(推荐)来隔离本项目的依赖:
<code class="language-bash">python -m venv venv # Cria o ambiente virtual venv\Scripts\activate # Ativa o ambiente virtual (Windows) source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
激活虚拟环境后,再次运行库安装命令。 要将依赖项保存在 requirements.txt
文件中,请使用:
<code class="language-bash">pip freeze > requirements.txt</code>
这使您可以轻松地在另一台计算机上重现环境。
下载与您的 Google Chrome 版本兼容的 ChromeDriver 版本。 您可以在ChromeDriver官网搜索您的Chrome版本对应的版本找到下载链接(前往chrome://settings/help
查看您的版本)。 下载后,解压文件并记住它的保存位置。
为了更轻松地使用 ChromeDriver,请将 ChromeDriver 安装文件夹的路径添加到 PATH 环境变量中。 请按照以下步骤操作:
C:caminhoparachromedriver
)。要检查 ChromeDriver 是否配置正确,请打开终端并输入:
<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
应显示 ChromeDriver 版本。
下面的Python代码使用Selenium访问SIDRA页面,选择数据并提取IPCA百分比变化信息。 请记住将 'C:\caminho\para\chromedriver.exe'
替换为您的 ChromeDriver 的正确路径。
<code class="language-bash">python -m venv venv # Cria o ambiente virtual venv\Scripts\activate # Ativa o ambiente virtual (Windows) source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
运行 Python 脚本。 如果一切配置正确,脚本将:
pagina_carregada.html
(对于调试很有用)。提取的数据可以进一步处理,例如创建图表或报告。
本教程提供了自动化 IBGE 数据收集的基础。 请记住,站点结构可能会发生变化,从而需要调整 XPath 代码。 监视站点的更改并根据需要更新脚本非常重要。 此外,收集数据时请尊重 IBGE 网站的使用条款。
此版本提高了清晰度,添加了有关环境配置的重要信息,并为网页抓取经验较少的用户提供了更完整的介绍。 结构也经过了轻微的重组,以获得更好的流动性。
以上是网页抓取 com selenium的详细内容。更多信息请关注PHP中文网其他相关文章!