Teks ini telah pun disusun dengan baik dan ditulis dalam bahasa Portugis yang betul. Satu-satunya cadangan adalah untuk meningkatkan kejelasan dalam beberapa perkara dan menambah sedikit lagi konteks untuk pembaca yang tidak biasa dengan pengikisan web dan tapak web IBGE. Versi yang disemak berikut:
Tutorial ini menunjukkan cara mengautomasikan pengumpulan data inflasi daripada IBGE (Institut Geografi dan Statistik Brazil) menggunakan perpustakaan Selenium dalam Python. Objektifnya adalah untuk mengekstrak data mengenai variasi peratusan IPCA (Indeks Harga Pengguna Nasional yang Luas) daripada laman web SIDRA (Sistem Pemulihan Automatik IBGE).
Sebelum anda bermula, pastikan anda telah memasang Python pada sistem anda, bersama-sama dengan pengurus pakej pip
.
Buat folder baharu untuk projek anda. Di dalamnya, buat fail Jupyter Notebook (.ipynb
) atau fail Python (.py
). Jupyter Notebook memudahkan untuk melihat dan menjalankan kod langkah demi langkah.
Buka terminal atau gesaan arahan anda, navigasi ke folder projek anda dan jalankan arahan berikut untuk memasang perpustakaan yang diperlukan:
<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
Buat persekitaran maya (disyorkan) untuk mengasingkan kebergantungan projek ini:
<code class="language-bash">python -m venv venv # Cria o ambiente virtual venv\Scripts\activate # Ativa o ambiente virtual (Windows) source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
Selepas mengaktifkan persekitaran maya, jalankan arahan pemasangan perpustakaan sekali lagi. Untuk menyimpan kebergantungan dalam fail requirements.txt
, gunakan:
<code class="language-bash">pip freeze > requirements.txt</code>
Ini membolehkan anda mengeluarkan semula persekitaran dengan mudah pada komputer lain.
Muat turun versi ChromeDriver yang serasi dengan versi Google Chrome anda. Anda boleh mendapatkan pautan muat turun di tapak web ChromeDriver rasmi dengan mencari versi yang sepadan dengan versi Chrome anda (pergi ke chrome://settings/help
untuk menyemak versi anda). Selepas memuat turun, nyahzip fail dan ingat di mana ia disimpan.
Untuk memudahkan penggunaan ChromeDriver, tambahkan laluan folder pemasangan ChromeDriver anda pada pembolehubah persekitaran PATH. Ikut langkah:
C:caminhoparachromedriver
).Untuk menyemak sama ada ChromeDriver dikonfigurasikan dengan betul, buka terminal anda dan taip:
<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
Versi ChromeDriver harus dipaparkan.
Kod Python di bawah menggunakan Selenium untuk mengakses halaman SIDRA, pilih data dan mengekstrak maklumat variasi peratusan IPCA. Ingat untuk menggantikan 'C:\caminho\para\chromedriver.exe'
dengan laluan yang betul untuk ChromeDriver anda.
<code class="language-bash">python -m venv venv # Cria o ambiente virtual venv\Scripts\activate # Ativa o ambiente virtual (Windows) source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
Jalankan skrip Python. Jika semuanya dikonfigurasikan dengan betul, skrip akan:
pagina_carregada.html
(berguna untuk nyahpepijat).Data yang diekstrak boleh diproses lebih lanjut, contohnya untuk membuat graf atau laporan.
Tutorial ini menyediakan asas untuk mengautomasikan pengumpulan data IBGE. Ingat bahawa struktur tapak mungkin berubah, memerlukan pelarasan pada kod XPath. Adalah penting untuk memantau perubahan pada tapak anda dan mengemas kini skrip anda mengikut keperluan. Selain itu, hormati syarat penggunaan tapak web IBGE semasa mengumpul data.
Versi ini meningkatkan kejelasan, menambah maklumat penting tentang konfigurasi persekitaran dan menyediakan pengenalan yang lebih lengkap untuk pengguna yang kurang pengalaman mengikis web. Strukturnya juga telah disusun semula sedikit untuk kecairan yang lebih baik.
Atas ialah kandungan terperinci Web mengikis com selenium. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!