Cara menggunakan Scrapy untuk membina sistem perangkak yang cekap-Tutorial Python-php.cn

Dengan perkembangan Internet, permintaan orang ramai terhadap maklumat semakin kuat dan kukuh, tetapi semakin sukar untuk mendapatkan dan memproses maklumat ini. Oleh itu, teknologi crawler wujud. Teknologi crawler telah digunakan secara meluas dalam enjin carian web, perlombongan data, rangkaian sosial, kewangan dan pelaburan, e-dagang dan bidang lain.

Scrapy ialah rangka kerja perangkak web yang cekap berdasarkan Python, yang boleh membantu kami membina sistem perangkak yang cekap dengan cepat. Dalam artikel ini, kami akan memperkenalkan cara menggunakan Scrapy untuk membina sistem perangkak yang cekap.

1. Pengenalan kepada Scrapy

Scrapy ialah rangka kerja perangkak web berasaskan Python dengan keupayaan pemprosesan yang cekap dan kebolehskalaan yang kukuh. Ia menyediakan mekanisme pengekstrakan data yang berkuasa, menyokong pemprosesan tak segerak, dan mempunyai sistem middleware dan pemalam yang berkuasa. Scrapy juga boleh melaksanakan proksi, ejen pengguna, anti-crawler dan fungsi lain dengan mudah melalui fail konfigurasi. Scrapy menyediakan sistem penyahpepijatan dan pengelogan yang berkuasa yang boleh membantu kami mencari masalah perangkak dengan lebih mudah.

2. Pemasangan Scrapy dan konfigurasi persekitaran

Memasang Scrapy

Memasang Scrapy memerlukan pemasangan Python terlebih dahulu .6 atau ke atas Versi. Kaedah pemasangan:

pip install scrapy

Salin selepas log masuk

Konfigurasi persekitaran

Selepas memasang Scrapy, kami perlu melaksanakan konfigurasi persekitaran yang berkaitan, terutamanya termasuk:

(1) Permintaan persediaan Pengepala

Dalam fail konfigurasi Scrapy, kami boleh menetapkan pengepala permintaan kami. Ini boleh membantu kami menyamar sebagai penyemak imbas untuk mengakses tapak web sasaran dan mengelak daripada disekat oleh mekanisme anti perangkak tapak web tersebut. Kodnya adalah seperti berikut:

DEFAULT_REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'en',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36'
}

Salin selepas log masuk

(2) Tetapkan perisian tengah pemuat turun

Scrapy menyokong banyak perisian tengah pemuat turun, seperti HttpErrorMiddleware, RetryMiddleware, UserAgentMiddleware, dll. Perisian tengah ini boleh membantu kami menyelesaikan pelbagai masalah muat turun dan rangkaian. Kami boleh menetapkan perisian tengah pemuat turun dalam fail konfigurasi dan menetapkan parameter perisian tengah pemuat turun mengikut keperluan. Contoh kod adalah seperti berikut:

DOWNLOADER_MIDDLEWARES = {
     'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110,
     'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware' : None,
     'myproject.spiders.middlewares.RotateUserAgentMiddleware': 400,
     'scrapy.contrib.downloadermiddleware.retry.RetryMiddleware': 90,
}

Salin selepas log masuk

3. Pembangunan perangkak Scrapy

Buat projek Scrapy

Sebelum menggunakan Scrapy, kita perlu mencipta Projek buruk. Menggunakan baris arahan, masukkan arahan berikut:

scrapy startproject myproject

Salin selepas log masuk

Ini akan mencipta projek Scrapy bernama myproject.

Menulis program perangkak

Rangka kerja Scrapy mempunyai seni bina yang sangat baik dan dibahagikan kepada lima modul: enjin, penjadual, pemuat turun, perangkak dan saluran paip. Untuk membangunkan perangkak Scrapy, anda perlu menulis atur cara berikut:

(1) Modul Crawler

Dalam Scrapy, perangkak adalah bahagian yang paling penting. Anda perlu mencipta folder labah-labah dalam direktori myproject dan menulis fail perangkak di dalamnya, seperti myspider.py. Kod sampel adalah seperti berikut:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['www.example.com']
    start_urls = ['http://www.example.com']

    def parse(self, response):
        # 爬虫主逻辑

Salin selepas log masuk

Dalam kod, kita perlu menentukan kelas Spider, dengan atribut nama ialah nama perangkak, atribut allow_domains ialah nama domain yang dibenarkan untuk dirangkak dan atribut start_urls ialah URL untuk mula merangkak. Kategori perangkak yang biasa digunakan dalam Scrapy termasuk: CrawlSpider, XMLFeedSpider, SitemapSpider, dsb.

(2) Modul pengekstrakan data

Modul pengekstrakan data bertanggungjawab untuk mengekstrak data daripada halaman HTML yang dikembalikan oleh perangkak. Scrapy menyediakan dua kaedah untuk mengekstrak data: pemilih XPath dan CSS.

XPath: Scrapy melaksanakan pemilih XPath melalui perpustakaan lxml Kaedah penggunaan adalah seperti berikut:

selector.xpath('xpath-expression').extract()

Salin selepas log masuk

Pemilih CSS: Scrapy melaksanakan pemilih CSS melalui pustaka Sizzle berikut:

selector.css('css-expression').extract()

Salin selepas log masuk

(3) Modul saluran paip

Dalam Scrapy, modul saluran paip bertanggungjawab untuk memproses data yang diekstrak oleh perangkak. Cipta fail pipelines.py dalam direktori myproject dan tulis kod untuk modul saluran paip:

class MyProjectPipeline(object):
    def process_item(self, item, spider):
        # 处理item数据
        return item

Salin selepas log masuk

Jalankan program perangkak

Gunakan arahan berikut untuk memulakan perangkak :

scrapy crawl myspider

Salin selepas log masuk

4. Penjadualan dan pengoptimuman perangkak Scrapy

Tetapkan kelewatan muat turun

Untuk mengelakkan terlalu banyak permintaan ke tapak web sasaran, kita harus tetapkan kelewatan muat turun. Atribut DOWNLOAD_DELAY boleh ditetapkan dalam fail konfigurasi Scrapy:

DOWNLOAD_DELAY = 2

Salin selepas log masuk

Tetapkan tamat masa permintaan

Kadangkala tapak web sasaran akan mengembalikan mesej ralat atau tamat masa permintaan, untuk mengelak daripada jatuh ke dalam gelung tak terhingga , kita harus menetapkan tamat masa permintaan. Atribut DOWNLOAD_TIMEOUT boleh ditetapkan dalam fail konfigurasi Scrapy:

DOWNLOAD_TIMEOUT = 3

Salin selepas log masuk

Tetapkan bilangan utas serentak dan permintaan serentak

Scrapy boleh menetapkan bilangan utas serentak dan permintaan serentak . Bilangan urutan serentak merujuk kepada bilangan halaman web yang dimuat turun pada masa yang sama, manakala bilangan permintaan serentak merujuk kepada bilangan permintaan yang dibuat ke tapak web sasaran pada masa yang sama. Boleh ditetapkan dalam fail konfigurasi Scrapy:

CONCURRENT_REQUESTS = 100
CONCURRENT_REQUESTS_PER_DOMAIN = 16

Salin selepas log masuk

Patuhi protokol Robot

Tapak web sasaran mungkin menetapkan protokol Robot, yang digunakan untuk menyekat akses perangkak. Kami harus mematuhi protokol Robots dan melaraskan kod perangkak kami mengikut fail robots.txt tapak web sasaran.

Mekanisme anti-crawler

Sesetengah tapak web akan menggunakan teknologi anti-crawler untuk menghalang perangkak kami, seperti log masuk paksa, penyekatan IP, kod pengesahan, pemaparan JS, dsb. . Untuk mengelakkan pengehadan ini, kami perlu menggunakan teknologi seperti proksi, perangkak teragih dan pengenalan automatik kod pengesahan untuk menyelesaikan masalah ini.

Ringkasnya, menggunakan Scrapy untuk membina sistem perangkak yang cekap memerlukan sejumlah pengumpulan teknikal dan ringkasan pengalaman. Semasa proses pembangunan, kita perlu memberi perhatian kepada kecekapan permintaan rangkaian, ketepatan pengekstrakan data, dan kebolehpercayaan storan data. Hanya melalui pengoptimuman dan penambahbaikan berterusan sistem perangkak kami boleh mencapai kecekapan dan kualiti yang lebih tinggi.

Atas ialah kandungan terperinci Cara menggunakan Scrapy untuk membina sistem perangkak yang cekap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!