python - 爬虫在运行一段时间后开始不断获得504的StatusCode，是否是对方站点的反爬虫策略导致？有何回避策略？

Question

最近初学用Python写网页爬虫视图扒取一个站点上的特定数据。 最近碰到的一个现象是，当爬虫运行了一段时间后(根据Fiddler抓包的结果来看，大概是发送了将近3万个http请求后)，爬虫的获取的http响应的StatusCode骤...

PHP中文网 · Answer

プロキシオプションがチェックされていますが、これは fiddler が原因です。以前は、パケットをキャプチャするために fiddler をよく使用していましたが、プロキシオプションのチェックを外すと問題が解決されました。

ringa_lee · Answer

私が作成したオープンソースコンポーネントに注目してください。クローラ対策戦略のブロックを防ぐためにプロキシサーバープールを設定し、リクエスト頻度を自動的に調整し、異常なリクエストを処理し、応答の速いエージェントを優先します。。 https://github.com/letcheng/ProxyPool

PHP中文网 · Answer

1.エージェント

2. 完全なリクエストをシミュレートします

3. 適度な間隔

4.adsl切断とリダイヤル

PHPz · Answer

方法:
IP を変更し、プロキシ IP を使用します。オンラインには無料および有料の IP が多数あります。
無料 IP: http://www.uuip.net/
有料 IP: http:/ /www.daili666.net/

迷茫 · Answer

プロキシ経由でアクセスしてみる

天蓬老师 · Answer

なぜこの質問に対する答えはこのようになるのでしょうか? 50x のエラーは Web サイト自体にあります