Cara melaksanakan program perangkak mudah dalam Python
Dengan perkembangan Internet, data telah menjadi salah satu sumber paling berharga dalam masyarakat hari ini. Program crawler telah menjadi salah satu alat penting untuk mendapatkan data Internet. Artikel ini akan memperkenalkan cara melaksanakan program perangkak mudah dalam Python dan memberikan contoh kod khusus.
- Tentukan tapak web sasaran
Sebelum anda mula menulis program crawler, anda mesti terlebih dahulu menentukan tapak web sasaran yang anda ingin crawl. Sebagai contoh, kami memilih untuk merangkak tapak web berita dan mendapatkan artikel berita daripadanya.
- Import perpustakaan yang diperlukan
Terdapat banyak perpustakaan pihak ketiga yang sangat baik dalam Python yang boleh digunakan untuk menulis program perangkak, seperti permintaan dan BeautifulSoup. Sebelum menulis program perangkak, import perpustakaan yang diperlukan ini.
import requests
from bs4 import BeautifulSoup
Salin selepas log masuk
- Hantar permintaan HTTP dan huraikan HTML
Gunakan perpustakaan permintaan untuk menghantar permintaan HTTP ke tapak web sasaran dan dapatkan kod HTML halaman web. Kemudian gunakan perpustakaan BeautifulSoup untuk menghuraikan kod HTML dan mengekstrak data yang kami perlukan.
url = "目标网站的URL"
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, "html.parser")
Salin selepas log masuk
- Ekstrak data
Dengan menganalisis struktur HTML tapak web sasaran, tentukan lokasi data yang kami perlukan dan ekstraknya menggunakan kaedah yang disediakan oleh perpustakaan BeautifulSoup.
# 示例:提取新闻标题和链接
news_list = soup.find_all("a", class_="news-title") # 假设新闻标题使用CSS类名 "news-title"
for news in news_list:
title = news.text
link = news["href"]
print(title, link)
Salin selepas log masuk
- Data storan
Simpan data yang diekstrak ke dalam fail atau pangkalan data untuk analisis dan aplikasi data seterusnya. . Pada masa yang sama, kami boleh menetapkan bilangan rangkak untuk mengelak daripada merangkak terlalu banyak data.
# 示例:将数据存储到文件
with open("news.txt", "w", encoding="utf-8") as f:
for news in news_list:
title = news.text
link = news["href"]
f.write(f"{title} {link}
")
Salin selepas log masuk
Di atas adalah proses pelaksanaan program crawler yang mudah. Melalui contoh ini, anda boleh belajar cara menggunakan Python untuk menulis program perangkak asas untuk mendapatkan data daripada tapak web sasaran dan menyimpannya dalam fail. Sudah tentu, fungsi program crawler adalah lebih daripada ini, dan anda boleh mengembangkan dan menambah baiknya mengikut keperluan anda sendiri. -
Pada masa yang sama, perlu diingatkan bahawa semasa menulis program perangkak, anda perlu mematuhi norma undang-undang dan etika, menghormati fail robots.txt tapak web, dan mengelakkan beban yang tidak perlu pada tapak web sasaran.
Atas ialah kandungan terperinci Bagaimana untuk melaksanakan program perangkak mudah dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!