Cara menggunakan perangkak Python untuk merangkak data halaman web menggunakan BeautifulSoup dan Requests-Tutorial Python-php.cn

Jadual Kandungan

1. Pengenalan

2. Konsep asas perangkak web

3. Pengenalan kepada Beautiful Soup and Requests library

4. Pilih tapak web sasaran

5. Gunakan Permintaan untuk mendapatkan kandungan web

6. Gunakan Beautiful Sup untuk menghuraikan kandungan halaman web

7. Ekstrak data yang diperlukan dan simpannya

Rumah

pembangunan bahagian belakang

Tutorial Python

Cara menggunakan perangkak Python untuk merangkak data halaman web menggunakan BeautifulSoup dan Requests

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 29, 2023 pm 12:52 PM

python requests beautifulsoup

1. Pengenalan

Prinsip pelaksanaan perangkak web boleh diringkaskan ke dalam langkah berikut:

Hantar permintaan HTTP: Perangkak web menghantar permintaan HTTP ke laman web sasaran (Biasanya permintaan GET) Dapatkan kandungan halaman web. Dalam Python, permintaan HTTP boleh dihantar menggunakan perpustakaan permintaan.
Menghuraikan HTML: Selepas menerima respons daripada tapak web sasaran, perangkak perlu menghuraikan kandungan HTML untuk mengekstrak maklumat yang berguna. HTML ialah bahasa penanda yang digunakan untuk menerangkan struktur halaman web Ia terdiri daripada satu siri teg bersarang. Perangkak boleh mencari dan mengekstrak data yang diperlukan berdasarkan teg dan atribut ini. Dalam Python, anda boleh menggunakan perpustakaan seperti BeautifulSoup dan lxml untuk menghuraikan HTML.
Pengekstrakan data: Selepas menghuraikan HTML, perangkak perlu mengekstrak data yang diperlukan mengikut peraturan yang telah ditetapkan. Peraturan ini boleh berdasarkan nama teg, atribut, pemilih CSS, XPath, dsb. Dalam Python, BeautifulSoup menyediakan keupayaan pengekstrakan data berasaskan tag dan atribut, dan lxml dan cssselect boleh mengendalikan pemilih CSS dan XPath.
Storan data: Data yang ditangkap oleh perangkak biasanya perlu disimpan dalam fail atau pangkalan data untuk pemprosesan seterusnya. Dalam Python, anda boleh menggunakan operasi I/O fail, perpustakaan csv atau perpustakaan sambungan pangkalan data (seperti sqlite3, pymysql, pymongo, dll.) untuk menyimpan data ke fail atau pangkalan data setempat.
Traversal automatik: Data banyak tapak web diedarkan pada berbilang halaman dan perangkak perlu melintasi halaman ini secara automatik dan mengekstrak data. Proses traversal biasanya melibatkan penemuan URL baharu, membelok halaman, dsb. Perangkak boleh mencari URL baharu semasa menghuraikan HTML, menambahkannya pada baris gilir untuk dirangkak dan teruskan dengan langkah di atas.
Asynchronous and concurrency: Untuk meningkatkan kecekapan perangkak, teknologi asynchronous dan concurrency boleh digunakan untuk mengendalikan berbilang permintaan pada masa yang sama. Dalam Python, anda boleh menggunakan multi-threading (benang), berbilang proses (multiprocessing), coroutine (asyncio) dan teknologi lain untuk mencapai rangkak serentak.
Strategi dan respons anti perangkak: Banyak tapak web telah menggunakan strategi anti perangkak, seperti mengehadkan kelajuan akses, mengesan Ejen Pengguna, kod pengesahan, dsb. Untuk menangani strategi ini, perangkak mungkin perlu menggunakan IP proksi, mensimulasikan Ejen Pengguna penyemak imbas, mengenal pasti kod pengesahan dan teknik lain secara automatik. Dalam Python, anda boleh menggunakan pustaka fake_useragent untuk menjana Agen Pengguna rawak dan menggunakan alatan seperti Selenium untuk mensimulasikan operasi penyemak imbas.

2. Konsep asas perangkak web

Perangkak web, juga dikenali sebagai labah-labah web dan robot web, ialah program yang merangkak maklumat halaman web secara automatik daripada Internet . Crawler biasanya mengikut peraturan tertentu untuk mengakses halaman web dan mengekstrak data yang berguna.

3. Pengenalan kepada Beautiful Soup and Requests library

Beautiful Soup: perpustakaan Python untuk menghuraikan dokumen HTML dan XML, yang menyediakan cara mudah untuk Mengekstrak data daripada web muka surat.
Permintaan: Pustaka HTTP Python yang ringkas dan mudah digunakan untuk menghantar permintaan ke tapak web dan mendapatkan kandungan respons.

4. Pilih tapak web sasaran

Artikel ini akan mengambil halaman dalam Wikipedia sebagai contoh untuk menangkap maklumat tajuk dan perenggan dalam halaman tersebut. Untuk memudahkan contoh, kami akan merangkak halaman Wikipedia bahasa Python (https://en.wikipedia.org/wiki/Python_(programming_language).

5. Gunakan Permintaan untuk mendapatkan kandungan web

Mula-mula, pasang perpustakaan Permintaan:

pip install requests

Salin selepas log masuk

Kemudian, gunakan Permintaan untuk menghantar permintaan GET ke URL sasaran dan dapatkan kandungan HTML halaman web:

import requests
 
url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
response = requests.get(url)
html_content = response.text

Salin selepas log masuk

6. Gunakan Beautiful Sup untuk menghuraikan kandungan halaman web

Pasang Beautiful Soup:

pip install beautifulsoup4

Salin selepas log masuk

Seterusnya, gunakan Beautiful Soup untuk menghuraikan kandungan halaman web dan mengekstrak data yang diperlukan:

from bs4 import BeautifulSoup
 
soup = BeautifulSoup(html_content, "html.parser")
 
# 提取标题
title = soup.find("h2", class_="firstHeading").text
 
# 提取段落
paragraphs = soup.find_all("p")
paragraph_texts = [p.text for p in paragraphs]
 
# 打印提取到的数据
print("Title:", title)
print("Paragraphs:", paragraph_texts)

Salin selepas log masuk

7. Ekstrak data yang diperlukan dan simpannya

Simpan data yang diekstrak ke fail teks:

with open("wiki_python.txt", "w", encoding="utf-8") as f:
    f.write(f"Title: {title}\n")
    f.write("Paragraphs:\n")
    for p in paragraph_texts:
        f.write(p)
        f.write("\n")

Salin selepas log masuk

Atas ialah kandungan terperinci Cara menggunakan perangkak Python untuk merangkak data halaman web menggunakan BeautifulSoup dan Requests. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7557

Tutorial CakePHP

1384

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

PHP dan Python: Contoh dan perbandingan kod Apr 15, 2025 am 12:07 AM

PHP dan Python mempunyai kelebihan dan kekurangan mereka sendiri, dan pilihannya bergantung kepada keperluan projek dan keutamaan peribadi. 1.PHP sesuai untuk pembangunan pesat dan penyelenggaraan aplikasi web berskala besar. 2. Python menguasai bidang sains data dan pembelajaran mesin.

Python vs JavaScript: Komuniti, Perpustakaan, dan Sumber Apr 15, 2025 am 12:16 AM

Python dan JavaScript mempunyai kelebihan dan kekurangan mereka sendiri dari segi komuniti, perpustakaan dan sumber. 1) Komuniti Python mesra dan sesuai untuk pemula, tetapi sumber pembangunan depan tidak kaya dengan JavaScript. 2) Python berkuasa dalam bidang sains data dan perpustakaan pembelajaran mesin, sementara JavaScript lebih baik dalam perpustakaan pembangunan dan kerangka pembangunan depan. 3) Kedua -duanya mempunyai sumber pembelajaran yang kaya, tetapi Python sesuai untuk memulakan dengan dokumen rasmi, sementara JavaScript lebih baik dengan MDNWebDocs. Pilihan harus berdasarkan keperluan projek dan kepentingan peribadi.

Bagaimana sokongan GPU untuk Pytorch di CentOS Apr 14, 2025 pm 06:48 PM

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

Penjelasan terperinci mengenai Prinsip Docker Apr 14, 2025 pm 11:57 PM

Docker menggunakan ciri -ciri kernel Linux untuk menyediakan persekitaran berjalan yang cekap dan terpencil. Prinsip kerjanya adalah seperti berikut: 1. Cermin digunakan sebagai templat baca sahaja, yang mengandungi semua yang anda perlukan untuk menjalankan aplikasi; 2. Sistem Fail Kesatuan (Unionfs) menyusun pelbagai sistem fail, hanya menyimpan perbezaan, menjimatkan ruang dan mempercepatkan; 3. Daemon menguruskan cermin dan bekas, dan pelanggan menggunakannya untuk interaksi; 4. Ruang nama dan cgroups melaksanakan pengasingan kontena dan batasan sumber; 5. Pelbagai mod rangkaian menyokong interkoneksi kontena. Hanya dengan memahami konsep -konsep teras ini, anda boleh menggunakan Docker dengan lebih baik.

Keserasian Centos Miniopen Apr 14, 2025 pm 05:45 PM

Penyimpanan Objek Minio: Penyebaran berprestasi tinggi di bawah CentOS System Minio adalah prestasi tinggi, sistem penyimpanan objek yang diedarkan yang dibangunkan berdasarkan bahasa Go, serasi dengan Amazons3. Ia menyokong pelbagai bahasa pelanggan, termasuk Java, Python, JavaScript, dan GO. Artikel ini akan memperkenalkan pemasangan dan keserasian minio pada sistem CentOS. Keserasian versi CentOS Minio telah disahkan pada pelbagai versi CentOS, termasuk tetapi tidak terhad kepada: CentOS7.9: Menyediakan panduan pemasangan lengkap yang meliputi konfigurasi kluster, penyediaan persekitaran, tetapan fail konfigurasi, pembahagian cakera, dan mini

Cara Mengendalikan Latihan Pittorch Diagihkan di Centos Apr 14, 2025 pm 06:36 PM

Latihan yang diedarkan Pytorch pada sistem CentOS memerlukan langkah -langkah berikut: Pemasangan Pytorch: Premisnya ialah Python dan PIP dipasang dalam sistem CentOS. Bergantung pada versi CUDA anda, dapatkan arahan pemasangan yang sesuai dari laman web rasmi Pytorch. Untuk latihan CPU sahaja, anda boleh menggunakan arahan berikut: PipinstallToRchTorchVisionTorchaudio Jika anda memerlukan sokongan GPU, pastikan versi CUDA dan CUDNN yang sama dipasang dan gunakan versi pytorch yang sepadan untuk pemasangan. Konfigurasi Alam Sekitar Teragih: Latihan yang diedarkan biasanya memerlukan pelbagai mesin atau mesin berbilang mesin tunggal. Tempat

Cara Memilih Versi PyTorch di CentOS Apr 14, 2025 pm 06:51 PM

Apabila memasang pytorch pada sistem CentOS, anda perlu dengan teliti memilih versi yang sesuai dan pertimbangkan faktor utama berikut: 1. Keserasian Persekitaran Sistem: Sistem Operasi: Adalah disyorkan untuk menggunakan CentOS7 atau lebih tinggi. CUDA dan CUDNN: Versi Pytorch dan versi CUDA berkait rapat. Sebagai contoh, Pytorch1.9.0 memerlukan CUDA11.1, manakala Pytorch2.0.1 memerlukan CUDA11.3. Versi CUDNN juga mesti sepadan dengan versi CUDA. Sebelum memilih versi PyTorch, pastikan anda mengesahkan bahawa versi CUDA dan CUDNN yang serasi telah dipasang. Versi Python: Cawangan Rasmi Pytorch

Cara mengemas kini pytorch ke versi terkini di CentOS Apr 14, 2025 pm 06:15 PM

Mengemas kini Pytorch ke versi terkini di CentOS boleh mengikuti langkah -langkah berikut: Kaedah 1: Mengemas kini PIP dengan PIP: Mula -mula pastikan PIP anda adalah versi terkini, kerana versi lama PIP mungkin tidak dapat memasang versi terkini PYTORCH. pipinstall-upgradepip uninstalls versi lama pytorch (jika dipasang): pemasangan pipuninstalltorchtorchvisionTorchaudio terkini

See all articles