分布式爬虫 - scrapy-redis 分布式系统？

Question

现在可以从网上下载这些代码，怎么进行部署和运行代码从github上下载了关于分布式的代码，不知道怎么用，求各位大神指点下。。。下面是网址https://github.com/rolando/scrapy-redis环境已经按照上面的配置好了，...

PHP中文网 · Answer

Saya rasa perkara ini tidak dapat digambarkan dengan jelas dalam satu atau dua ayat.

Entri blog ini yang saya rujuk sebelum ini, saya harap ia dapat membantu anda.

Izinkan saya bercakap tentang pemahaman peribadi saya.

scrapy menggunakan python milik collection.deque yang dipertingkatkan untuk menyimpan request yang hendak dirangkak Bagaimana dua atau lebih Spider berkongsi deque ini?

Baris gilir untuk dirangkak tidak boleh dikongsi dan pengedaran adalah karut. scrapy-redis menyediakan penyelesaian, menggantikan collection.deque dengan pangkalan data redis dan berbilang perangkak menyimpan redis untuk dirangkak daripada pelayan request yang sama, supaya berbilang spider boleh pergi ke yang sama Baca dalam pangkalan data, supaya masalah utama pengedaran diselesaikan.

Nota: tidak menggantikan redis untuk menyimpan request, scrapy boleh diedarkan terus!

berkaitan secara langsung dengan

ialah penjadual scrapy. 待爬队列 SchedulerRujuk struktur

scrapy Ia bertanggungjawab untuk beratur

baharu, mengeluarkan

seterusnya untuk dirangkak, dsb. Oleh itu, selepas menggantikan redis, komponen lain mesti ditukar. request requestJadi, pemahaman peribadi saya ialah agak mudah untuk menggunakan perangkak yang sama pada berbilang mesin, penempatan teragih

, alamat rujukan

blog saya. Dan tugasan ini, termasuk penyahduplikasi URL, adalah fungsi rangka kerja redis yang telah ditulis.
scrapy-redisAlamat rujukan ada di sini Anda boleh memuat turun contoh untuk melihat pelaksanaan khusus. Saya juga telah mengusahakannya baru-baru ini

, dan saya akan mengemas kini jawapan ini apabila saya telah menggunakannya.

scrapy-redisJika anda mempunyai sebarang kemajuan baharu, anda boleh berkongsi dengan kami.

黄舟 · Answer

@伟兴 Hello, saya melihat komen ini pada 15.10.11 Adakah anda mempunyai sebarang keputusan sekarang?
Bolehkah anda mengesyorkan beberapa blog anda Terima kasih~
Anda boleh menghubungi saya chenjian158978@gmail.com