Dalam era digital, data ialah aset yang berharga dan pengikisan web telah menjadi alat penting untuk mengekstrak maklumat daripada tapak web. Artikel ini meneroka dua perpustakaan Python yang popular untuk mengikis web: Sup Cantik dan Scrapy. Kami akan menyelidiki ciri mereka, menyediakan contoh kod kerja langsung dan membincangkan amalan terbaik untuk mengikis web yang bertanggungjawab.
Pengikisan web ialah proses automatik untuk mengekstrak data daripada tapak web. Ia digunakan secara meluas dalam pelbagai bidang, termasuk analisis data, pembelajaran mesin dan analisis kompetitif. Walau bagaimanapun, pengikisan web mesti dilakukan dengan penuh tanggungjawab untuk menghormati syarat perkhidmatan tapak web dan sempadan undang-undang.
Beautiful Soup ialah perpustakaan Python yang direka untuk tugas mengikis web yang cepat dan mudah. Ia amat berguna untuk menghuraikan dokumen HTML dan XML dan mengekstrak data daripadanya. Beautiful Soup menyediakan simpulan bahasa Pythonic untuk mengulang, mencari dan mengubah suai pokok parse.
Untuk bermula dengan Beautiful Soup, anda perlu memasangnya bersama-sama dengan perpustakaan permintaan:
pip install beautifulsoup4 requests
Mari kita ekstrak tajuk artikel daripada halaman blog contoh:
import requests from bs4 import BeautifulSoup # Fetch the web page url = 'https://example-blog.com' response = requests.get(url) # Check if the request was successful if response.status_code == 200: # Parse the HTML content soup = BeautifulSoup(response.text, 'html.parser') # Extract article titles titles = soup.find_all('h1', class_='entry-title') # Check if titles were found if titles: for title in titles: # Extract and print the text of each title print(title.get_text(strip=True)) else: print("No titles found. Please check the HTML structure and update the selector.") else: print(f"Failed to retrieve the page. Status code: {response.status_code}")
Scrapy ialah rangka kerja mengikis web komprehensif yang menyediakan alat untuk pengekstrakan data berskala besar. Ia direka bentuk untuk prestasi dan fleksibiliti, menjadikannya sesuai untuk projek yang kompleks.
Pasang Scrapy menggunakan pip:
pip install scrapy
Untuk menunjukkan Scrapy, kami akan mencipta labah-labah untuk mengikis petikan daripada tapak web:
pip install beautifulsoup4 requests
import requests from bs4 import BeautifulSoup # Fetch the web page url = 'https://example-blog.com' response = requests.get(url) # Check if the request was successful if response.status_code == 200: # Parse the HTML content soup = BeautifulSoup(response.text, 'html.parser') # Extract article titles titles = soup.find_all('h1', class_='entry-title') # Check if titles were found if titles: for title in titles: # Extract and print the text of each title print(title.get_text(strip=True)) else: print("No titles found. Please check the HTML structure and update the selector.") else: print(f"Failed to retrieve the page. Status code: {response.status_code}")
pip install scrapy
Walaupun pengikisan web adalah alat yang berkuasa, adalah penting untuk menggunakannya secara bertanggungjawab:
Sup Cantik dan Scrapy ialah alat yang berkuasa untuk mengikis web, masing-masing dengan kekuatannya. Beautiful Soup sesuai untuk pemula dan projek kecil, manakala Scrapy sesuai untuk tugas mengikis berskala besar dan kompleks. Dengan mengikuti amalan terbaik, anda boleh mengekstrak data dengan cekap dan bertanggungjawab, membuka kunci cerapan berharga
nota: Kandungan bantuan AI
Atas ialah kandungan terperinci Mengikis Web dengan Sup Cantik dan Mengikis: Mengekstrak Data Dengan Cekap dan Bertanggungjawab. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!