Rumah > pembangunan bahagian belakang > Tutorial Python > Web mengikis com selenium

Web mengikis com selenium

Susan Sarandon
Lepaskan: 2025-01-23 18:11:17
asal
508 orang telah melayarinya

Teks ini telah pun disusun dengan baik dan ditulis dalam bahasa Portugis yang betul. Satu-satunya cadangan adalah untuk meningkatkan kejelasan dalam beberapa perkara dan menambah sedikit lagi konteks untuk pembaca yang tidak biasa dengan pengikisan web dan tapak web IBGE. Versi yang disemak berikut:

Web scraping com selenium


Mengautomasikan Pengumpulan Data Inflasi IBGE dengan Selenium dan Python

Tutorial ini menunjukkan cara mengautomasikan pengumpulan data inflasi daripada IBGE (Institut Geografi dan Statistik Brazil) menggunakan perpustakaan Selenium dalam Python. Objektifnya adalah untuk mengekstrak data mengenai variasi peratusan IPCA (Indeks Harga Pengguna Nasional yang Luas) daripada laman web SIDRA (Sistem Pemulihan Automatik IBGE).


Langkah untuk Pengumpulan Data

Sebelum anda bermula, pastikan anda telah memasang Python pada sistem anda, bersama-sama dengan pengurus pakej pip.


1. Persediaan Alam Sekitar

1.1 Cipta Projek:

Buat folder baharu untuk projek anda. Di dalamnya, buat fail Jupyter Notebook (.ipynb) atau fail Python (.py). Jupyter Notebook memudahkan untuk melihat dan menjalankan kod langkah demi langkah.

1.2 Pemasangan Perpustakaan:

Buka terminal atau gesaan arahan anda, navigasi ke folder projek anda dan jalankan arahan berikut untuk memasang perpustakaan yang diperlukan:

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
Salin selepas log masuk
Salin selepas log masuk

Buat persekitaran maya (disyorkan) untuk mengasingkan kebergantungan projek ini:

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
Salin selepas log masuk
Salin selepas log masuk

Selepas mengaktifkan persekitaran maya, jalankan arahan pemasangan perpustakaan sekali lagi. Untuk menyimpan kebergantungan dalam fail requirements.txt, gunakan:

<code class="language-bash">pip freeze > requirements.txt</code>
Salin selepas log masuk

Ini membolehkan anda mengeluarkan semula persekitaran dengan mudah pada komputer lain.

1.3 ChromeDriver Muat Turun:

Muat turun versi ChromeDriver yang serasi dengan versi Google Chrome anda. Anda boleh mendapatkan pautan muat turun di tapak web ChromeDriver rasmi dengan mencari versi yang sepadan dengan versi Chrome anda (pergi ke chrome://settings/help untuk menyemak versi anda). Selepas memuat turun, nyahzip fail dan ingat di mana ia disimpan.


2. Konfigurasi ChromeDriver

2.1 Tambahkan pada PATH (Windows):

Untuk memudahkan penggunaan ChromeDriver, tambahkan laluan folder pemasangan ChromeDriver anda pada pembolehubah persekitaran PATH. Ikut langkah:

  1. Cari "pembolehubah persekitaran" dalam menu mula.
  2. Klik pada "Edit pembolehubah persekitaran sistem".
  3. Dalam bahagian "Pembolehubah sistem", pilih "Laluan" dan klik "Edit".
  4. Klik "Baharu" dan tambahkan laluan penuh folder tempat ChromeDriver berada (cth: C:caminhoparachromedriver).
  5. Simpan perubahan dan mulakan semula terminal atau gesaan arahan.

2.2 Pengesahan:

Untuk menyemak sama ada ChromeDriver dikonfigurasikan dengan betul, buka terminal anda dan taip:

<code class="language-bash">pip install notebook selenium webdriver-manager pandas</code>
Salin selepas log masuk
Salin selepas log masuk

Versi ChromeDriver harus dipaparkan.


3. Skrip Python untuk Automasi

Kod Python di bawah menggunakan Selenium untuk mengakses halaman SIDRA, pilih data dan mengekstrak maklumat variasi peratusan IPCA. Ingat untuk menggantikan 'C:\caminho\para\chromedriver.exe' dengan laluan yang betul untuk ChromeDriver anda.

<code class="language-bash">python -m venv venv  # Cria o ambiente virtual
venv\Scripts\activate  # Ativa o ambiente virtual (Windows)
source venv/bin/activate # Ativa o ambiente virtual (Linux/macOS)</code>
Salin selepas log masuk
Salin selepas log masuk

4. Pelaksanaan dan Keputusan

Jalankan skrip Python. Jika semuanya dikonfigurasikan dengan betul, skrip akan:

  1. Akses halaman SIDRA.
  2. Pilih semua data.
  3. Ekstrak nilai perubahan peratusan.
  4. Cetak nilai ke konsol.
  5. Simpan HTML halaman dalam fail pagina_carregada.html (berguna untuk nyahpepijat).

Data yang diekstrak boleh diproses lebih lanjut, contohnya untuk membuat graf atau laporan.


Pertimbangan Akhir

Tutorial ini menyediakan asas untuk mengautomasikan pengumpulan data IBGE. Ingat bahawa struktur tapak mungkin berubah, memerlukan pelarasan pada kod XPath. Adalah penting untuk memantau perubahan pada tapak anda dan mengemas kini skrip anda mengikut keperluan. Selain itu, hormati syarat penggunaan tapak web IBGE semasa mengumpul data.

Versi ini meningkatkan kejelasan, menambah maklumat penting tentang konfigurasi persekitaran dan menyediakan pengenalan yang lebih lengkap untuk pengguna yang kurang pengalaman mengikis web. Strukturnya juga telah disusun semula sedikit untuk kecairan yang lebih baik.

Atas ialah kandungan terperinci Web mengikis com selenium. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan