python 爬蟲解析效率如何提升?

Question

現在採用的是在windows 環境下採用多線程的方式進行爬取,使用beautifulsoup+lxml進行解析. N個爬取線程-&gt;解析隊列-&gt;1個解析線程-&gt;存儲隊列-&gt;1個儲存線程整個執行程式的效率卡在計算密集的解析線程...

为情所困 · Answer

其實我覺得, 你在前面N個爬取線程 可以換成協程/線程池實現, 因為你在頻繁創建線程本省一種性能耗費, 用線程池雖然可以減少這部分的損耗,但是上下文切換還是無法避免, 所以協程這方面, 應該是比較合適的.
1個解析線程 換成進程池,多開幾個進程去計算密集處理, 其餘應該可以不用改, 如果還想再搞, 將核心部分用c/c++ 重寫咯, 希望可以幫到你

怪我咯 · Answer

我的做法是多進程。多進程的好處是當單機效能不夠的時候，可以隨時切換為分散式爬蟲。

淡淡烟草味 · Answer

可以上網找下tornade異步爬蟲吧,我正在用這個