python - 如何为爬虫构建代理池

Question

为了避免爬虫被封 IP ，网上搜索教程说需要建立代理池。但是付费代理都好贵。。。不过好在网上已经有不少免费提供代理的网站了。因此，我打算写个爬虫去获取这些免费 IP ～ 策略步骤 用种子关键词例如“代理 IP ”...

怪我咯 · Answer

私も同じ仕事をしたことがあり、その時も自動検索と自動更新を行うための独自のクローラを書きました。

プロキシアドレスに関しては、クローラーに Web サイトを自動的に選択させず、無料のプロキシを提供するいくつかの Web サイトを手動で選別し、さまざまなプロキシ Web サイトをクロールするいくつかのクローラーを作成しました。

あなたが言及した問題への回答:

検証のために、初めてクロールされたアドレスが使用可能かどうかが直接検証され、エージェントの信頼性が低いため、データベースに保存されるか、永続化されます。キャプチャされたエージェントが利用可能かどうかを定期的に確認する必要があります。uWSGI サーバー上でスケジュールされたタスクが開始され、30 分ごとにチェックされ、新しいエージェントが 1 時間ごとにキャプチャされます。もちろん、スケジュールされたタスクを使用することもできます。 crontab など。
アクセスする必要がある Web サイトにアクセスするには、キャプチャされたプロキシを直接使用します。Web サイトごとに異なるプロキシを提供する必要がある場合は、関連する検証情報を一緒に検証して保存できます。
ネットワーク検証操作はすべて I/O 集約型のタスクであり、Python の GIL はマルチスレッドに影響を与えずに解決できます。 I/O 集中型のタスクの効率を改善します
。

multithreading-spider 以前、マルチスレッド + キューを使用して単純なプロキシクローラーを作成しました。 src のデモは、単純なプロデューサー/コンシューマーモデルを使用します。確認エージェント可用性クローラはコンシューマとして機能し、特定のタスクの進行状況を表示できます。

PHP中文网 · Answer

Python ベースのプロキシプールを試してみてください。
インターネット上のプロキシリソースを自動的に取得し、拡張を容易にします。
https://github.com/WiseDoge/P...

ringa_lee · Answer

このプロジェクトをご覧ください: https://github.com/jhao104/pr...

オープンソースのプロキシプールサービス