Webスクレイピングcomセレン

Susan Sarandon
リリース: 2025-01-23 18:11:17
オリジナル
507 人が閲覧しました

このテキストはすでによく整理されており、正しいポルトガル語で書かれています。 唯一の提案は、いくつかの点で明確さを改善し、Web スクレイピングや IBGE Web サイトに慣れていない読者のためにもう少しコンテキストを追加することです。 改訂版は次のとおりです:

Web scraping com selenium


Selenium と Python を使用した IBGE インフレ データ収集の自動化

このチュートリアルでは、Python の Selenium ライブラリを使用して、IBGE (ブラジル地理統計研究所) からのインフレ データの収集を自動化する方法を説明します。 目的は、SIDRA Web サイト (IBGE 自動回復システム) から IPCA (広域消費者物価指数) の変動率に関するデータを抽出することです。


データ収集の手順

始める前に、パッケージ マネージャー pip とともに Python がシステムにインストールされていることを確認してください。


1.環境の準備

1.1 プロジェクトを作成します:

プロジェクト用に新しいフォルダーを作成します。その中に、Jupyter Notebook ファイル (.ipynb) または Python ファイル (.py) を作成します。 Jupyter Notebook を使用すると、コードを段階的に表示して実行することが簡単になります。

1.2 ライブラリのインストール:

ターミナルまたはコマンド プロンプトを開き、プロジェクト フォルダーに移動し、次のコマンドを実行して必要なライブラリをインストールします。

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
ログイン後にコピー
ログイン後にコピー

このプロジェクトの依存関係を分離するために仮想環境を作成します (推奨):

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
ログイン後にコピー
ログイン後にコピー

仮想環境をアクティブ化した後、ライブラリのインストール コマンドを再度実行します。 依存関係を requirements.txt ファイルに保存するには、次を使用します:

<code class="language-bash">pip freeze > requirements.txt</code>
ログイン後にコピー

これにより、別のコンピュータ上で環境を簡単に再現できます。

1.3 ChromeDriver ダウンロード:

Google Chrome のバージョンと互換性のあるバージョンの ChromeDriver をダウンロードします。 ChromeDriver の公式 Web サイトで、お使いの Chrome のバージョンに対応するバージョンを検索すると、ダウンロード リンクが見つかります (chrome://settings/help に移動してバージョンを確認してください)。 ダウンロード後、ファイルを解凍し、保存場所を覚えておいてください。


2. ChromeDriver 構成

2.1 PATH に追加 (Windows):

ChromeDriver を簡単に使用できるようにするには、ChromeDriver インストール フォルダーのパスを PATH 環境変数に追加します。 次の手順に従ってください:

  1. スタートメニューで「環境変数」を検索します。
  2. 「システム環境変数の編集」をクリックします。
  3. [システム環境変数] セクションで、[パス] を選択し、[編集] をクリックします。
  4. [新規] をクリックし、ChromeDriver が配置されているフォルダーのフル パスを追加します (例: C:caminhoparachromedriver)。
  5. 変更を保存し、ターミナルまたはコマンド プロンプトを再起動します。

2.2 検証:

ChromeDriver が正しく設定されているかどうかを確認するには、ターミナルを開いて次のように入力します。

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
ログイン後にコピー
ログイン後にコピー

ChromeDriver のバージョンが表示されます。


3.自動化のための Python スクリプト

以下の Python コードは、Selenium を使用して SIDRA ページにアクセスし、データを選択して、IPCA パーセンテージ変動情報を抽出します。 忘れずに 'C:\caminho\para\chromedriver.exe' を ChromeDriver の正しいパスに置き換えてください。

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
ログイン後にコピー
ログイン後にコピー

4.実行と結果

Python スクリプトを実行します。 すべてが正しく構成されている場合、スクリプトは次のようになります:

  1. SIDRA ページにアクセスします。
  2. すべてのデータを選択します。
  3. 変化率の値を抽出します。
  4. 値をコンソールに出力します。
  5. ページの HTML をファイルに保存します pagina_carregada.html (デバッグに便利です)。

抽出されたデータは、グラフやレポートの作成など、さらに処理できます。


最終的な考慮事項

このチュートリアルは、IBGE データ収集を自動化するための基礎を提供します。 サイト構造が変更され、XPath コードの調整が必要になる可能性があることに注意してください。 サイトへの変更を監視し、必要に応じてスクリプトを更新することが重要です。 さらに、データを収集する際には、IBGE Web サイトの利用規約を尊重してください。

このバージョンでは、分かりやすさが向上し、環境構成に関する重要な情報が追加され、Web スクレイピングの経験が少ないユーザー向けに、より完全な入門書が提供されます。 構造も若干再編成され、流動性が向上しました。

以上がWebスクレイピングcomセレンの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート