Dengan perkembangan Internet, permintaan orang ramai terhadap maklumat semakin kuat dan kukuh, tetapi semakin sukar untuk mendapatkan dan memproses maklumat ini. Oleh itu, teknologi crawler wujud. Teknologi crawler telah digunakan secara meluas dalam enjin carian web, perlombongan data, rangkaian sosial, kewangan dan pelaburan, e-dagang dan bidang lain.
Scrapy ialah rangka kerja perangkak web yang cekap berdasarkan Python, yang boleh membantu kami membina sistem perangkak yang cekap dengan cepat. Dalam artikel ini, kami akan memperkenalkan cara menggunakan Scrapy untuk membina sistem perangkak yang cekap.
1. Pengenalan kepada Scrapy
Scrapy ialah rangka kerja perangkak web berasaskan Python dengan keupayaan pemprosesan yang cekap dan kebolehskalaan yang kukuh. Ia menyediakan mekanisme pengekstrakan data yang berkuasa, menyokong pemprosesan tak segerak, dan mempunyai sistem middleware dan pemalam yang berkuasa. Scrapy juga boleh melaksanakan proksi, ejen pengguna, anti-crawler dan fungsi lain dengan mudah melalui fail konfigurasi. Scrapy menyediakan sistem penyahpepijatan dan pengelogan yang berkuasa yang boleh membantu kami mencari masalah perangkak dengan lebih mudah.
2. Pemasangan Scrapy dan konfigurasi persekitaran
Memasang Scrapy memerlukan pemasangan Python terlebih dahulu .6 atau ke atas Versi. Kaedah pemasangan:
pip install scrapy
Selepas memasang Scrapy, kami perlu melaksanakan konfigurasi persekitaran yang berkaitan, terutamanya termasuk:
(1) Permintaan persediaan Pengepala
Dalam fail konfigurasi Scrapy, kami boleh menetapkan pengepala permintaan kami. Ini boleh membantu kami menyamar sebagai penyemak imbas untuk mengakses tapak web sasaran dan mengelak daripada disekat oleh mekanisme anti perangkak tapak web tersebut. Kodnya adalah seperti berikut:
DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Language': 'en', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36' }
(2) Tetapkan perisian tengah pemuat turun
Scrapy menyokong banyak perisian tengah pemuat turun, seperti HttpErrorMiddleware, RetryMiddleware, UserAgentMiddleware, dll. Perisian tengah ini boleh membantu kami menyelesaikan pelbagai masalah muat turun dan rangkaian. Kami boleh menetapkan perisian tengah pemuat turun dalam fail konfigurasi dan menetapkan parameter perisian tengah pemuat turun mengikut keperluan. Contoh kod adalah seperti berikut:
DOWNLOADER_MIDDLEWARES = { 'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110, 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware' : None, 'myproject.spiders.middlewares.RotateUserAgentMiddleware': 400, 'scrapy.contrib.downloadermiddleware.retry.RetryMiddleware': 90, }
3. Pembangunan perangkak Scrapy
Sebelum menggunakan Scrapy, kita perlu mencipta Projek buruk. Menggunakan baris arahan, masukkan arahan berikut:
scrapy startproject myproject
Ini akan mencipta projek Scrapy bernama myproject.
Rangka kerja Scrapy mempunyai seni bina yang sangat baik dan dibahagikan kepada lima modul: enjin, penjadual, pemuat turun, perangkak dan saluran paip. Untuk membangunkan perangkak Scrapy, anda perlu menulis atur cara berikut:
(1) Modul Crawler
Dalam Scrapy, perangkak adalah bahagian yang paling penting. Anda perlu mencipta folder labah-labah dalam direktori myproject dan menulis fail perangkak di dalamnya, seperti myspider.py. Kod sampel adalah seperti berikut:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' allowed_domains = ['www.example.com'] start_urls = ['http://www.example.com'] def parse(self, response): # 爬虫主逻辑
Dalam kod, kita perlu menentukan kelas Spider, dengan atribut nama ialah nama perangkak, atribut allow_domains ialah nama domain yang dibenarkan untuk dirangkak dan atribut start_urls ialah URL untuk mula merangkak. Kategori perangkak yang biasa digunakan dalam Scrapy termasuk: CrawlSpider, XMLFeedSpider, SitemapSpider, dsb.
(2) Modul pengekstrakan data
Modul pengekstrakan data bertanggungjawab untuk mengekstrak data daripada halaman HTML yang dikembalikan oleh perangkak. Scrapy menyediakan dua kaedah untuk mengekstrak data: pemilih XPath dan CSS.
XPath: Scrapy melaksanakan pemilih XPath melalui perpustakaan lxml Kaedah penggunaan adalah seperti berikut:
selector.xpath('xpath-expression').extract()
Pemilih CSS: Scrapy melaksanakan pemilih CSS melalui pustaka Sizzle berikut:
selector.css('css-expression').extract()
(3) Modul saluran paip
Dalam Scrapy, modul saluran paip bertanggungjawab untuk memproses data yang diekstrak oleh perangkak. Cipta fail pipelines.py dalam direktori myproject dan tulis kod untuk modul saluran paip:
class MyProjectPipeline(object): def process_item(self, item, spider): # 处理item数据 return item
Gunakan arahan berikut untuk memulakan perangkak :
scrapy crawl myspider
4. Penjadualan dan pengoptimuman perangkak Scrapy
Untuk mengelakkan terlalu banyak permintaan ke tapak web sasaran, kita harus tetapkan kelewatan muat turun. Atribut DOWNLOAD_DELAY boleh ditetapkan dalam fail konfigurasi Scrapy:
DOWNLOAD_DELAY = 2
Kadangkala tapak web sasaran akan mengembalikan mesej ralat atau tamat masa permintaan, untuk mengelak daripada jatuh ke dalam gelung tak terhingga , kita harus menetapkan tamat masa permintaan. Atribut DOWNLOAD_TIMEOUT boleh ditetapkan dalam fail konfigurasi Scrapy:
DOWNLOAD_TIMEOUT = 3
Scrapy boleh menetapkan bilangan utas serentak dan permintaan serentak . Bilangan urutan serentak merujuk kepada bilangan halaman web yang dimuat turun pada masa yang sama, manakala bilangan permintaan serentak merujuk kepada bilangan permintaan yang dibuat ke tapak web sasaran pada masa yang sama. Boleh ditetapkan dalam fail konfigurasi Scrapy:
CONCURRENT_REQUESTS = 100 CONCURRENT_REQUESTS_PER_DOMAIN = 16
Tapak web sasaran mungkin menetapkan protokol Robot, yang digunakan untuk menyekat akses perangkak. Kami harus mematuhi protokol Robots dan melaraskan kod perangkak kami mengikut fail robots.txt tapak web sasaran.
Sesetengah tapak web akan menggunakan teknologi anti-crawler untuk menghalang perangkak kami, seperti log masuk paksa, penyekatan IP, kod pengesahan, pemaparan JS, dsb. . Untuk mengelakkan pengehadan ini, kami perlu menggunakan teknologi seperti proksi, perangkak teragih dan pengenalan automatik kod pengesahan untuk menyelesaikan masalah ini.
Ringkasnya, menggunakan Scrapy untuk membina sistem perangkak yang cekap memerlukan sejumlah pengumpulan teknikal dan ringkasan pengalaman. Semasa proses pembangunan, kita perlu memberi perhatian kepada kecekapan permintaan rangkaian, ketepatan pengekstrakan data, dan kebolehpercayaan storan data. Hanya melalui pengoptimuman dan penambahbaikan berterusan sistem perangkak kami boleh mencapai kecekapan dan kualiti yang lebih tinggi.
Atas ialah kandungan terperinci Cara menggunakan Scrapy untuk membina sistem perangkak yang cekap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!