このテキストはすでによく整理されており、正しいポルトガル語で書かれています。 唯一の提案は、いくつかの点で明確さを改善し、Web スクレイピングや IBGE Web サイトに慣れていない読者のためにもう少しコンテキストを追加することです。 改訂版は次のとおりです:
このチュートリアルでは、Python の Selenium ライブラリを使用して、IBGE (ブラジル地理統計研究所) からのインフレ データの収集を自動化する方法を説明します。 目的は、SIDRA Web サイト (IBGE 自動回復システム) から IPCA (広域消費者物価指数) の変動率に関するデータを抽出することです。
始める前に、パッケージ マネージャー pip
とともに Python がシステムにインストールされていることを確認してください。
プロジェクト用に新しいフォルダーを作成します。その中に、Jupyter Notebook ファイル (.ipynb
) または Python ファイル (.py
) を作成します。 Jupyter Notebook を使用すると、コードを段階的に表示して実行することが簡単になります。
ターミナルまたはコマンド プロンプトを開き、プロジェクト フォルダーに移動し、次のコマンドを実行して必要なライブラリをインストールします。
<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
このプロジェクトの依存関係を分離するために仮想環境を作成します (推奨):
<code class="language-bash">python -m venv venv # Cria o ambiente virtual venv\Scripts\activate # Ativa o ambiente virtual (Windows) source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
仮想環境をアクティブ化した後、ライブラリのインストール コマンドを再度実行します。 依存関係を requirements.txt
ファイルに保存するには、次を使用します:
<code class="language-bash">pip freeze > requirements.txt</code>
これにより、別のコンピュータ上で環境を簡単に再現できます。
Google Chrome のバージョンと互換性のあるバージョンの ChromeDriver をダウンロードします。 ChromeDriver の公式 Web サイトで、お使いの Chrome のバージョンに対応するバージョンを検索すると、ダウンロード リンクが見つかります (chrome://settings/help
に移動してバージョンを確認してください)。 ダウンロード後、ファイルを解凍し、保存場所を覚えておいてください。
ChromeDriver を簡単に使用できるようにするには、ChromeDriver インストール フォルダーのパスを PATH 環境変数に追加します。 次の手順に従ってください:
C:caminhoparachromedriver
)。ChromeDriver が正しく設定されているかどうかを確認するには、ターミナルを開いて次のように入力します。
<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
ChromeDriver のバージョンが表示されます。
以下の Python コードは、Selenium を使用して SIDRA ページにアクセスし、データを選択して、IPCA パーセンテージ変動情報を抽出します。 忘れずに 'C:\caminho\para\chromedriver.exe'
を ChromeDriver の正しいパスに置き換えてください。
<code class="language-bash">python -m venv venv # Cria o ambiente virtual venv\Scripts\activate # Ativa o ambiente virtual (Windows) source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
Python スクリプトを実行します。 すべてが正しく構成されている場合、スクリプトは次のようになります:
pagina_carregada.html
(デバッグに便利です)。抽出されたデータは、グラフやレポートの作成など、さらに処理できます。
このチュートリアルは、IBGE データ収集を自動化するための基礎を提供します。 サイト構造が変更され、XPath コードの調整が必要になる可能性があることに注意してください。 サイトへの変更を監視し、必要に応じてスクリプトを更新することが重要です。 さらに、データを収集する際には、IBGE Web サイトの利用規約を尊重してください。
このバージョンでは、分かりやすさが向上し、環境構成に関する重要な情報が追加され、Web スクレイピングの経験が少ないユーザー向けに、より完全な入門書が提供されます。 構造も若干再編成され、流動性が向上しました。
以上がWebスクレイピングcomセレンの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。