python - 爬虫在运行一段时间后开始不断获得504的StatusCode,是否是对方站点的反爬虫策略导致?有何回避策略?
巴扎黑
巴扎黑 2017-04-17 17:25:54
0
6
995

最近初学用Python写网页爬虫视图扒取一个站点上的特定数据。

最近碰到的一个现象是,当爬虫运行了一段时间后(根据Fiddler抓包的结果来看,大概是发送了将近3万个http请求后),爬虫的获取的http响应的StatusCode骤然都变成了 504, 之后就再也获取不到200的响应了。

想请教一下各位大神,这种现象是否是由于扒取对象的站点的反爬虫策略造成的?

如果是的话,有什么常用的回避策略么?

P.S.
还注意到一个现象,不知与上述现象是否有关,一并描述:
即当爬虫的响应变成504之后,发现我的浏览器的代理选项被自动勾上了,如下所示:

巴扎黑
巴扎黑

全部回覆(6)
Ty80

代理選項被勾選,是fiddler造成的。以前常使用fiddler抓包,一段時間後,不能訪問網絡,去掉勾選代理選項,就解決問題了

左手右手慢动作

可以關註一下我寫的一個開源元件,設定一個代理伺服器池,防止反爬蟲策略的屏蔽,並進行了自動調節請求頻率,處理異常請求,優先選取響應快的代理。 https://github.com/letcheng/ProxyPool

洪涛

1.代理

2.模擬完全的請求

3.合理的間隔

4.adsl斷線重撥

PHPzhong

方法:
更換IP,使用代理IP,網路上有很多免費喝付費的
免費IP:http://www.uuip.net/
付費IP:http://www.daili666.net/

迷茫

透過代理商去訪問試試

Peter_Zhu

為什麼這個問題的答案是這樣的,50x錯誤在於網站本身啊

熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!