Python实现在线程里运行scrapy的方法
Jun 10, 2016 pm 03:15 PM
python
scrapy
benang
lari
本文实例讲述了Python实现在线程里运行scrapy的方法。分享给大家供大家参考。具体如下:
如果你希望在一个写好的程序里调用scrapy,就可以通过下面的代码,让scrapy运行在一个线程里。
""" Code to run Scrapy crawler in a thread - works on Scrapy 0.8 """ import threading, Queue from twisted.internet import reactor from scrapy.xlib.pydispatch import dispatcher from scrapy.core.manager import scrapymanager from scrapy.core.engine import scrapyengine from scrapy.core import signals class CrawlerThread(threading.Thread): def __init__(self): threading.Thread.__init__(self) self.running = False def run(self): self.running = True scrapymanager.configure(control_reactor=False) scrapymanager.start() reactor.run(installSignalHandlers=False) def crawl(self, *args): if not self.running: raise RuntimeError("CrawlerThread not running") self._call_and_block_until_signal(signals.spider_closed, \ scrapymanager.crawl, *args) def stop(self): reactor.callFromThread(scrapyengine.stop) def _call_and_block_until_signal(self, signal, f, *a, **kw): q = Queue.Queue() def unblock(): q.put(None) dispatcher.connect(unblock, signal=signal) reactor.callFromThread(f, *a, **kw) q.get() # Usage example below: import os os.environ.setdefault('SCRAPY_SETTINGS_MODULE', 'myproject.settings') from scrapy.xlib.pydispatch import dispatcher from scrapy.core import signals from scrapy.conf import settings from scrapy.crawler import CrawlerThread settings.overrides['LOG_ENABLED'] = False # avoid log noise def item_passed(item): print "Just scraped item:", item dispatcher.connect(item_passed, signal=signals.item_passed) crawler = CrawlerThread() print "Starting crawler thread..." crawler.start() print "Crawling somedomain.com...." crawler.crawl('somedomain.com) # blocking call print "Crawling anotherdomain.com..." crawler.crawl('anotherdomain.com') # blocking call print "Stopping crawler thread..." crawler.stop()
Salin selepas log masuk
希望本文所述对大家的Python程序设计有所帮助。
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Panas
Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?
3 minggu yang lalu
By DDD
Repo: Cara menghidupkan semula rakan sepasukan
3 minggu yang lalu
By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
3 minggu yang lalu
By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 minggu yang lalu
By 尊渡假赌尊渡假赌尊渡假赌

Alat panas Tag

Artikel Panas
Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?
3 minggu yang lalu
By DDD
Repo: Cara menghidupkan semula rakan sepasukan
3 minggu yang lalu
By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
3 minggu yang lalu
By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 minggu yang lalu
By 尊渡假赌尊渡假赌尊渡假赌

Tag artikel panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Apakah kelebihan dan kekurangan templat?

Google AI mengumumkan Gemini 1.5 Pro dan Gemma 2 untuk pembangun

Kongsi beberapa rangka kerja projek berkaitan AI dan LLM sumber terbuka .NET

Pengaturcaraan Serentak C++: Bagaimana untuk mengelakkan kebuluran benang dan penyongsangan keutamaan?

Bagaimana anda bertanya kepadanya Deepseek

Bagaimana untuk menyimpan fungsi menilai
