Master和sleeve之间需要协作通信,而实现协作通信需要用到jsonRPC,在网上看了一些这方面的内容,一、需要安装jsonrpc-scrapy二、在程序中导入相应的包三、协作通信主要是通过http来实现现在有一个master,多个sleeve,master相当于服务器,而sleeve相当于爬虫的节点,来实现具体的爬虫任务。分布式实现涉及任务的调度,以及任务的分配,但整体还是不太清楚协作通信是如何实现的
最近也在學習這個,但還沒做到分散式。
上google搜索了一下,恰巧也用到了redis,之前面試的時候也被問到這個問題。
google
redis
參考這兩個博文,希望對你有幫助,感覺第一個那個可參考性更強一些。
使用scrapy,redis,mongodb實現的一個分散式網路爬蟲
如何入門 Python 爬蟲?
最近也在學習這個,但還沒做到分散式。
上
google
搜索了一下,恰巧也用到了redis
,之前面試的時候也被問到這個問題。參考這兩個博文,希望對你有幫助,感覺第一個那個可參考性更強一些。
使用scrapy,redis,mongodb實現的一個分散式網路爬蟲
如何入門 Python 爬蟲?