Jadual Kandungan
1. Pengenalan
2. Konsep asas perangkak web
3. Pengenalan kepada Beautiful Soup and Requests library
4. Pilih tapak web sasaran
5. Gunakan Permintaan untuk mendapatkan kandungan web
6. Gunakan Beautiful Sup untuk menghuraikan kandungan halaman web
7. Ekstrak data yang diperlukan dan simpannya
Rumah pembangunan bahagian belakang Tutorial Python Cara menggunakan perangkak Python untuk merangkak data halaman web menggunakan BeautifulSoup dan Requests

Cara menggunakan perangkak Python untuk merangkak data halaman web menggunakan BeautifulSoup dan Requests

Apr 29, 2023 pm 12:52 PM
python requests beautifulsoup

1. Pengenalan

Prinsip pelaksanaan perangkak web boleh diringkaskan ke dalam langkah berikut:

  • Hantar permintaan HTTP: Perangkak web menghantar permintaan HTTP ke laman web sasaran (Biasanya permintaan GET) Dapatkan kandungan halaman web. Dalam Python, permintaan HTTP boleh dihantar menggunakan perpustakaan permintaan.

  • Menghuraikan HTML: Selepas menerima respons daripada tapak web sasaran, perangkak perlu menghuraikan kandungan HTML untuk mengekstrak maklumat yang berguna. HTML ialah bahasa penanda yang digunakan untuk menerangkan struktur halaman web Ia terdiri daripada satu siri teg bersarang. Perangkak boleh mencari dan mengekstrak data yang diperlukan berdasarkan teg dan atribut ini. Dalam Python, anda boleh menggunakan perpustakaan seperti BeautifulSoup dan lxml untuk menghuraikan HTML.

  • Pengekstrakan data: Selepas menghuraikan HTML, perangkak perlu mengekstrak data yang diperlukan mengikut peraturan yang telah ditetapkan. Peraturan ini boleh berdasarkan nama teg, atribut, pemilih CSS, XPath, dsb. Dalam Python, BeautifulSoup menyediakan keupayaan pengekstrakan data berasaskan tag dan atribut, dan lxml dan cssselect boleh mengendalikan pemilih CSS dan XPath.

  • Storan data: Data yang ditangkap oleh perangkak biasanya perlu disimpan dalam fail atau pangkalan data untuk pemprosesan seterusnya. Dalam Python, anda boleh menggunakan operasi I/O fail, perpustakaan csv atau perpustakaan sambungan pangkalan data (seperti sqlite3, pymysql, pymongo, dll.) untuk menyimpan data ke fail atau pangkalan data setempat.

  • Traversal automatik: Data banyak tapak web diedarkan pada berbilang halaman dan perangkak perlu melintasi halaman ini secara automatik dan mengekstrak data. Proses traversal biasanya melibatkan penemuan URL baharu, membelok halaman, dsb. Perangkak boleh mencari URL baharu semasa menghuraikan HTML, menambahkannya pada baris gilir untuk dirangkak dan teruskan dengan langkah di atas.

  • Asynchronous and concurrency: Untuk meningkatkan kecekapan perangkak, teknologi asynchronous dan concurrency boleh digunakan untuk mengendalikan berbilang permintaan pada masa yang sama. Dalam Python, anda boleh menggunakan multi-threading (benang), berbilang proses (multiprocessing), coroutine (asyncio) dan teknologi lain untuk mencapai rangkak serentak.

  • Strategi dan respons anti perangkak: Banyak tapak web telah menggunakan strategi anti perangkak, seperti mengehadkan kelajuan akses, mengesan Ejen Pengguna, kod pengesahan, dsb. Untuk menangani strategi ini, perangkak mungkin perlu menggunakan IP proksi, mensimulasikan Ejen Pengguna penyemak imbas, mengenal pasti kod pengesahan dan teknik lain secara automatik. Dalam Python, anda boleh menggunakan pustaka fake_useragent untuk menjana Agen Pengguna rawak dan menggunakan alatan seperti Selenium untuk mensimulasikan operasi penyemak imbas.

2. Konsep asas perangkak web

Perangkak web, juga dikenali sebagai labah-labah web dan robot web, ialah program yang merangkak maklumat halaman web secara automatik daripada Internet . Crawler biasanya mengikut peraturan tertentu untuk mengakses halaman web dan mengekstrak data yang berguna.

3. Pengenalan kepada Beautiful Soup and Requests library

  1. Beautiful Soup: perpustakaan Python untuk menghuraikan dokumen HTML dan XML, yang menyediakan cara mudah untuk Mengekstrak data daripada web muka surat.

  2. Permintaan: Pustaka HTTP Python yang ringkas dan mudah digunakan untuk menghantar permintaan ke tapak web dan mendapatkan kandungan respons.

4. Pilih tapak web sasaran

Artikel ini akan mengambil halaman dalam Wikipedia sebagai contoh untuk menangkap maklumat tajuk dan perenggan dalam halaman tersebut. Untuk memudahkan contoh, kami akan merangkak halaman Wikipedia bahasa Python (https://en.wikipedia.org/wiki/Python_(programming_language).

5. Gunakan Permintaan untuk mendapatkan kandungan web

Mula-mula, pasang perpustakaan Permintaan:

1

pip install requests

Salin selepas log masuk

Kemudian, gunakan Permintaan untuk menghantar permintaan GET ke URL sasaran dan dapatkan kandungan HTML halaman web:

1

2

3

4

5

import requests

  

url = "https://en.wikipedia.org/wiki/Python_(programming_language)"

response = requests.get(url)

html_content = response.text

Salin selepas log masuk

6. Gunakan Beautiful Sup untuk menghuraikan kandungan halaman web

Pasang Beautiful Soup:

1

pip install beautifulsoup4

Salin selepas log masuk

Seterusnya, gunakan Beautiful Soup untuk menghuraikan kandungan halaman web dan mengekstrak data yang diperlukan:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

from bs4 import BeautifulSoup

  

soup = BeautifulSoup(html_content, "html.parser")

  

# 提取标题

title = soup.find("h2", class_="firstHeading").text

  

# 提取段落

paragraphs = soup.find_all("p")

paragraph_texts = [p.text for p in paragraphs]

  

# 打印提取到的数据

print("Title:", title)

print("Paragraphs:", paragraph_texts)

Salin selepas log masuk

7. Ekstrak data yang diperlukan dan simpannya

Simpan data yang diekstrak ke fail teks:

1

2

3

4

5

6

with open("wiki_python.txt", "w", encoding="utf-8") as f:

    f.write(f"Title: {title}\n")

    f.write("Paragraphs:\n")

    for p in paragraph_texts:

        f.write(p)

        f.write("\n")

Salin selepas log masuk

Atas ialah kandungan terperinci Cara menggunakan perangkak Python untuk merangkak data halaman web menggunakan BeautifulSoup dan Requests. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Tag artikel panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Cara Muat turun DeepSeek Xiaomi Cara Muat turun DeepSeek Xiaomi Feb 19, 2025 pm 05:27 PM

Cara Muat turun DeepSeek Xiaomi

Apakah kelebihan dan kekurangan templat? Apakah kelebihan dan kekurangan templat? May 08, 2024 pm 03:51 PM

Apakah kelebihan dan kekurangan templat?

Google AI mengumumkan Gemini 1.5 Pro dan Gemma 2 untuk pembangun Google AI mengumumkan Gemini 1.5 Pro dan Gemma 2 untuk pembangun Jul 01, 2024 am 07:22 AM

Google AI mengumumkan Gemini 1.5 Pro dan Gemma 2 untuk pembangun

Dengan hanya $250, pengarah teknikal Hugging Face mengajar anda cara memperhalusi Llama 3 Dengan hanya $250, pengarah teknikal Hugging Face mengajar anda cara memperhalusi Llama 3 May 06, 2024 pm 03:52 PM

Dengan hanya $250, pengarah teknikal Hugging Face mengajar anda cara memperhalusi Llama 3

Kongsi beberapa rangka kerja projek berkaitan AI dan LLM sumber terbuka .NET Kongsi beberapa rangka kerja projek berkaitan AI dan LLM sumber terbuka .NET May 06, 2024 pm 04:43 PM

Kongsi beberapa rangka kerja projek berkaitan AI dan LLM sumber terbuka .NET

Panduan lengkap untuk penyahpepijatan dan analisis fungsi golang Panduan lengkap untuk penyahpepijatan dan analisis fungsi golang May 06, 2024 pm 02:00 PM

Panduan lengkap untuk penyahpepijatan dan analisis fungsi golang

Bagaimana anda bertanya kepadanya Deepseek Bagaimana anda bertanya kepadanya Deepseek Feb 19, 2025 pm 04:42 PM

Bagaimana anda bertanya kepadanya Deepseek

Bagaimana untuk menyimpan fungsi menilai Bagaimana untuk menyimpan fungsi menilai May 07, 2024 am 01:09 AM

Bagaimana untuk menyimpan fungsi menilai

See all articles