Jadual Kandungan

Gunakan penjadual redis

Gunakan strategi deduplikasi redis

Jika anda tidak mengosongkan rekod redis, anda boleh jeda/sambung semula merangkak

Tetapkan parameter sambungan redis

import scrapy,re,json

Rumah

pembangunan bahagian belakang

Tutorial Python

Perangkak yang diedarkan dalam Scrapy dan kaedah untuk meningkatkan kecekapan merangkak data

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 22, 2023 pm 09:25 PM

scrapy Perangkak teragih Kecekapan menangkap data

Scrapy ialah rangka kerja perangkak web Python yang cekap yang boleh menulis program perangkak dengan cepat dan fleksibel. Walau bagaimanapun, apabila memproses sejumlah besar data atau tapak web yang kompleks, perangkak yang berdiri sendiri mungkin menghadapi masalah prestasi dan kebolehskalaan Pada masa ini, perangkak yang diedarkan perlu digunakan untuk meningkatkan kecekapan merangkak data. Artikel ini memperkenalkan perangkak teragih dalam Scrapy dan kaedah untuk meningkatkan kecekapan merangkak data.

1. Apakah perangkak teragih?

Dalam seni bina perangkak mesin tunggal tradisional, semua perangkak berjalan pada mesin yang sama Apabila berhadapan dengan sejumlah besar data atau tugas merangkak bertekanan tinggi, prestasi mesin selalunya ketat. Perangkak teragih mengagihkan tugas perangkak kepada berbilang mesin untuk diproses Melalui pengkomputeran dan penyimpanan yang diedarkan, beban pada satu mesin dikurangkan, dengan itu meningkatkan kecekapan dan kestabilan perangkak.

Perangkak teragih dalam Scrapy biasanya dilaksanakan menggunakan rangka kerja penjadualan teragih sumber terbuka Distributed Scrapy (pendek kata DSC). DSC mengedarkan program perangkak Scrapy kepada berbilang mesin untuk pemprosesan selari, dan meringkaskan keputusan secara seragam ke nod penjadualan pusat.

2. Bagaimana untuk melaksanakan perangkak teragih?

1. Install Distributed Scrapy

Jalankan arahan berikut untuk memasang DSC:

pip install scrapy_redis

pip install pymongo

2 . Ubah suai fail konfigurasi Scrapy

Tambah konfigurasi berikut dalam fail settings.py projek Scrapy:

Gunakan penjadual redis

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

Gunakan strategi deduplikasi redis

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

Jika anda tidak mengosongkan rekod redis, anda boleh jeda/sambung semula merangkak

SCHEDULER_PERSIST=Benar

Tetapkan parameter sambungan redis

REDIS_HOST='localhost'
REDIS_PORT=6379

3.dalam program perangkak Scrapy , anda perlu mengubah suai kaedah permintaan permulaan, gunakan kaedah permulaan scrapy-redis:

pengekodan:utf-8

import scrapy,re,json

daripada ..item import DouyuItem

dari scrapy_redis.spiders import RedisSpider

kelas DouyuSpider(RedisSpider):

# 爬虫名字
name = 'douyu'
# redis-key，从redis中pop数据进行爬取
redis_key = 'douyu:start_urls'

def parse(self, response):
    # scrapy爬虫代码

Salin selepas log masuk

4 >Lakukan arahan berikut dalam terminal untuk memulakan perkhidmatan redis ：

redis-server

5. Nod DSC:

scrapy crawl douyu -s JOBDIR= job1

Antaranya, job1 boleh menjadi nama tersuai, yang digunakan untuk DSC merekod status crawler.

3. Optimize Scrapy crawler

Scrapy menyediakan banyak kaedah untuk mengoptimumkan kecekapan crawler Jika digunakan dengan perangkak teragih, kecekapan merangkak data boleh dipertingkatkan lagi.

1. Menggunakan CrawlerRunner

CrawlerRunner memerlukan kelas Twisted untuk melanjutkan aplikasi. Berbanding dengan hanya menjalankan fail Python, ia membolehkan anda menjalankan berbilang perangkak secara serentak dalam proses yang sama tanpa menggunakan berbilang proses atau berbilang mesin. Ini boleh memudahkan pengurusan tugasan.

Cara untuk menggunakan CrawlerRunner adalah seperti berikut:

dari twisted.internet import reactor, tangguhkan

dari scrapy.crawler import CrawlerRunner

dari scrapy.utils.project import get_project_settings

dari my_spider.spiders.my_spider import MySpider

runner = CrawlerRunner(get_project_settings())

@defer.inlineCallbacks
def crawl():
rreeee ()

reactor.run()

2 Kurangkan keutamaan perisian tengah muat turun

Jika anda perlu memproses sejumlah besar atau data kompleks dalam perisian tengah muat turun, anda boleh menggunakan CONCURRENT_REQUESTS_PER_DOMAIN untuk mengurangkan keutamaan perisian tengah muat turun. 🎜>}

3. Pelarasan CONCURRENT_REQUESTS dan DOWNLOAD_DELAY parameter

CONCURRENT_REQUESTS menunjukkan bilangan maksimum permintaan yang diproses secara serentak oleh setiap nama domain, yang boleh dilaraskan secara munasabah mengikut konfigurasi mesin dan keperluan tugas.

DOWNLOAD_DELAY mewakili masa kelewatan antara setiap permintaan Kecekapan perangkak boleh dipertingkatkan dengan meningkatkan kelewatan atau permintaan tak segerak.

4. Ringkasan

Perangkak teragih Scrapy boleh membantu kami memproses sejumlah besar data dan meningkatkan kecekapan perangkak. Pada masa yang sama, kecekapan perangkak boleh dipertingkatkan lagi dengan menurunkan keutamaan perisian tengah muat turun, melaraskan bilangan coroutine dan meningkatkan kelewatan permintaan. Perangkak teragih ialah salah satu fungsi penting Pembelajaran Scrapy yang membolehkan kita mengendalikan pelbagai tugasan perangkak dengan mudah.

Atas ialah kandungan terperinci Perangkak yang diedarkan dalam Scrapy dan kaedah untuk meningkatkan kecekapan merangkak data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7514

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Scrapy melaksanakan rangkak dan analisis artikel akaun awam WeChat Jun 22, 2023 am 09:41 AM

Scrapy melaksanakan rangkak artikel dan analisis akaun awam WeChat WeChat ialah aplikasi media sosial yang popular dalam beberapa tahun kebelakangan ini, dan akaun awam yang dikendalikan di dalamnya juga memainkan peranan yang sangat penting. Seperti yang kita sedia maklum, akaun awam WeChat adalah lautan maklumat dan pengetahuan, kerana setiap akaun awam boleh menerbitkan artikel, mesej grafik dan maklumat lain. Maklumat ini boleh digunakan secara meluas dalam banyak bidang, seperti laporan media, penyelidikan akademik, dsb. Jadi, artikel ini akan memperkenalkan cara menggunakan rangka kerja Scrapy untuk merangkak dan menganalisis artikel akaun awam WeChat. Scr

Kaedah pelaksanaan pemuatan asynchronous Scrapy berdasarkan Ajax Jun 22, 2023 pm 11:09 PM

Scrapy ialah rangka kerja perangkak Python sumber terbuka yang boleh mendapatkan data daripada tapak web dengan cepat dan cekap. Walau bagaimanapun, banyak tapak web menggunakan teknologi pemuatan tak segerak Ajax, menjadikannya mustahil untuk Scrapy mendapatkan data secara langsung. Artikel ini akan memperkenalkan kaedah pelaksanaan Scrapy berdasarkan pemuatan tak segerak Ajax. 1. Prinsip pemuatan tak segerak Ajax Pemuatan tak segerak Ajax: Dalam kaedah pemuatan halaman tradisional, selepas pelayar menghantar permintaan kepada pelayan, ia mesti menunggu pelayan mengembalikan respons dan memuatkan keseluruhan halaman sebelum meneruskan ke langkah seterusnya.

Analisis kes buruk: Cara merangkak maklumat syarikat di LinkedIn Jun 23, 2023 am 10:04 AM

Scrapy ialah rangka kerja perangkak berasaskan Python yang boleh mendapatkan maklumat berkaitan dengan cepat dan mudah di Internet. Dalam artikel ini, kami akan menggunakan kes Scrapy untuk menganalisis secara terperinci cara merangkak maklumat syarikat di LinkedIn. Tentukan URL sasaran Mula-mula, kita perlu menjelaskan dengan jelas bahawa sasaran kita ialah maklumat syarikat di LinkedIn. Oleh itu, kita perlu mencari URL halaman maklumat syarikat LinkedIn. Buka laman web LinkedIn, masukkan nama syarikat dalam kotak carian, dan

Petua pengoptimuman buruk: Cara mengurangkan rangkak URL pendua dan meningkatkan kecekapan Jun 22, 2023 pm 01:57 PM

Scrapy ialah rangka kerja perangkak Python yang berkuasa yang boleh digunakan untuk mendapatkan sejumlah besar data daripada Internet. Walau bagaimanapun, apabila membangunkan Scrapy, kami sering menghadapi masalah merangkak URL pendua, yang membuang banyak masa dan sumber serta menjejaskan kecekapan. Artikel ini akan memperkenalkan beberapa teknik pengoptimuman Scrapy untuk mengurangkan rangkak URL pendua dan meningkatkan kecekapan perangkak Scrapy. 1. Gunakan atribut start_urls dan allowed_domains dalam perangkak Scrapy untuk

Menggunakan Selenium dan PhantomJS dalam perangkak Scrapy Jun 22, 2023 pm 06:03 PM

Menggunakan Selenium dan PhantomJSScrapy dalam perangkak Scrapy Scrapy ialah rangka kerja perangkak web yang sangat baik di bawah Python dan telah digunakan secara meluas dalam pengumpulan dan pemprosesan data dalam pelbagai bidang. Dalam pelaksanaan perangkak, kadangkala perlu untuk mensimulasikan operasi penyemak imbas untuk mendapatkan kandungan yang dibentangkan oleh tapak web tertentu Dalam kes ini, Selenium dan PhantomJS diperlukan. Selenium mensimulasikan operasi manusia pada penyemak imbas, membolehkan kami mengautomasikan ujian aplikasi web

Penggunaan Scrapy yang mendalam: Bagaimana untuk merangkak data HTML, XML dan JSON? Jun 22, 2023 pm 05:58 PM

Scrapy ialah rangka kerja perangkak Python yang berkuasa yang boleh membantu kami mendapatkan data di Internet dengan cepat dan fleksibel. Dalam proses merangkak sebenar, kami sering menghadapi pelbagai format data seperti HTML, XML dan JSON. Dalam artikel ini, kami akan memperkenalkan cara menggunakan Scrapy untuk merangkak ketiga-tiga format data ini masing-masing. 1. Merangkak data HTML dan mencipta projek Scrapy Pertama, kita perlu membuat projek Scrapy. Buka baris arahan dan masukkan arahan berikut: scrapys

Bagaimanakah Scrapy melaksanakan kontena dan penggunaan Docker? Jun 23, 2023 am 10:39 AM

Memandangkan aplikasi Internet moden terus berkembang dan meningkat dalam kerumitan, perangkak web telah menjadi alat penting untuk pemerolehan dan analisis data. Sebagai salah satu rangka kerja perangkak paling popular dalam Python, Scrapy mempunyai fungsi yang berkuasa dan antara muka API yang mudah digunakan, yang boleh membantu pembangun merangkak dan memproses data halaman web dengan cepat. Walau bagaimanapun, apabila berhadapan dengan tugas merangkak berskala besar, satu contoh perangkak Scrapy mudah dihadkan oleh sumber perkakasan, jadi Scrapy biasanya perlu disimpan dalam bekas dan digunakan ke bekas Docker.

Bagaimana cara menggunakan Scrapy untuk merangkak buku Douban dan penilaian serta ulasannya? Jun 22, 2023 am 10:21 AM

Dengan perkembangan Internet, orang ramai semakin bergantung kepada Internet untuk mendapatkan maklumat. Bagi pencinta buku, Douban Books telah menjadi platform yang sangat diperlukan. Di samping itu, Douban Books juga menyediakan banyak penilaian dan ulasan buku, membolehkan pembaca memahami buku dengan lebih komprehensif. Walau bagaimanapun, mendapatkan maklumat ini secara manual adalah sama dengan mencari jarum dalam timbunan jerami Pada masa ini, kita boleh menggunakan alat Scrapy untuk merangkak data. Scrapy ialah rangka kerja perangkak web sumber terbuka berdasarkan Python, yang boleh membantu kami dengan cekap

See all articles