python - 如何为爬虫构建代理池

Question

为了避免爬虫被封 IP ，网上搜索教程说需要建立代理池。但是付费代理都好贵。。。不过好在网上已经有不少免费提供代理的网站了。因此，我打算写个爬虫去获取这些免费 IP ～ 策略步骤 用种子关键词例如“代理 IP ”...

怪我咯 · Answer

大概寫下吧，剛好之前做過一樣的工作，當時也是需要代理，然後自己寫了爬蟲做自動獲取和自動更新。

代理地址的話我沒有去讓爬蟲自己選網站，而是人工篩選了幾個提供免費代理的網站然後分別寫了一些爬蟲去爬不同的代理網站；

針對你說的困難點：

驗證的話初次爬到的地址會直接先驗證是否可用，能用再存入數據庫或持久化；因為代理的不可靠性，需要定時檢查抓到的代理是否可用，我是直接在uWSGI 伺服器起了一個計時任務，每半小時會檢查一次，每一小時會抓一次新的代理，當然你也可以用crontab 之類的定時任務做；
直接用抓到的代理商訪問需要訪問的網站，如果需要針對不同網站提供不同代理可以驗證後把相關驗證資訊一起儲存；
效率問題好處理，網絡驗證操作都是 i/o 密集型任務，用協程、多線程、多進程都可以解決，python 的 gil 不影響多線程提高 i/o 密集型任務的效率

multithreading-spider之前我用多執行緒＋ queue 做的一個簡單的代理爬蟲，src 的demo 裡是具體例子，使用了簡單的生產者消費者模型，爬到代理地址的爬蟲當做生產者，驗證代理可用性的爬蟲當做消費者，可以顯示具體任務進度。

PHP中文网 · Answer

可以試試這個，基於Python的代理池。
自動抓取網路上的代理資源，並且方便擴充。
https://github.com/WiseDoge/P...

ringa_lee · Answer

你可以看看這個專案：https://github.com/jhao104/pr...

開源的代理池服務