为了避免爬虫被封 IP ,网上搜索教程说需要建立代理池。但是付费代理都好贵。。。不过好在网上已经有不少免费提供代理的网站了。因此,我打算写个爬虫去获取这些免费 IP ~
策略步骤
用种子关键词例如“代理 IP ”在各个搜索引擎上搜索,获取候选 URL
爬取候选 URL ,将代理地址储存下来
验证代理地址,将可用的代理地址放入代理池
难点
如何去验证维护这些代理地址
如何知道哪些代理地址适合哪些网站(可用性,响应时间)
效率问题(之前写过简单的验证脚本,但是效率非常低)
小伙伴们有不有什么好的办法能解决这些问题呢?
私も同じ仕事をしたことがあり、その時も自動検索と自動更新を行うための独自のクローラを書きました。
プロキシ アドレスに関しては、クローラーに Web サイトを自動的に選択させず、無料のプロキシを提供するいくつかの Web サイトを手動で選別し、さまざまなプロキシ Web サイトをクロールするいくつかのクローラーを作成しました。
あなたが言及した問題への回答:Python ベースのプロキシ プールを試してみてください。
インターネット上のプロキシ リソースを自動的に取得し、拡張を容易にします。
https://github.com/WiseDoge/P...
このプロジェクトをご覧ください: https://github.com/jhao104/pr...
オープンソースのプロキシ プール サービス