python - 爬虫在运行一段时间后开始不断获得504的StatusCode,是否是对方站点的反爬虫策略导致?有何回避策略?
巴扎黑
巴扎黑 2017-04-17 17:25:54
0
6
1000

最近初学用Python写网页爬虫视图扒取一个站点上的特定数据。

最近碰到的一个现象是,当爬虫运行了一段时间后(根据Fiddler抓包的结果来看,大概是发送了将近3万个http请求后),爬虫的获取的http响应的StatusCode骤然都变成了 504, 之后就再也获取不到200的响应了。

想请教一下各位大神,这种现象是否是由于扒取对象的站点的反爬虫策略造成的?

如果是的话,有什么常用的回避策略么?

P.S.
还注意到一个现象,不知与上述现象是否有关,一并描述:
即当爬虫的响应变成504之后,发现我的浏览器的代理选项被自动勾上了,如下所示:

巴扎黑
巴扎黑

全員に返信(6)
Ty80

プロキシ オプションがチェックされていますが、これは fiddler が原因です。以前は、パケットをキャプチャするために fiddler をよく使用していましたが、プロキシ オプションのチェックを外すと問題が解決されました。

いいねを押す +0
左手右手慢动作

私が作成したオープンソース コンポーネントに注目してください。クローラ対策戦略のブロックを防ぐためにプロキシ サーバー プールを設定し、リクエスト頻度を自動的に調整し、異常なリクエストを処理し、応答の速いエージェントを優先します。 。 https://github.com/letcheng/ProxyPool

いいねを押す +0
洪涛

1.エージェント

2. 完全なリクエストをシミュレートします

3. 適度な間隔

4.adsl切断とリダイヤル

いいねを押す +0
PHPzhong

方法:
IP を変更し、プロキシ IP を使用します。オンラインには無料および有料の IP が多数あります。
無料 IP: http://www.uuip.net/
有料 IP: http:/ /www.daili666.net/

いいねを押す +0
迷茫

プロキシ経由でアクセスしてみる

いいねを押す +0
Peter_Zhu

なぜこの質問に対する答えはこのようになるのでしょうか? 50x のエラーは Web サイト自体にあります

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!