python - 用scrapy写爬虫,发送请求后,服务器全都直接返回202,该怎么办呢?
黄舟
黄舟 2017-06-28 09:25:09
0
2
1590

我爬取的是中国裁判文书网,之前还是好好的,我发送请求,服务器返回200,然后我处理body中的数据

但是一个星期之前,突然所有的请求都返回202,然后response body里也是空的,完全拿不到数据,我在回调函数中阻塞等待while(response.status == 202)就sleep也没用,status并不会变化

该怎么办呢?

我使用了crwalera的ip代理服务,之前有段时间也是202,但是过了一天就好了,但这次已经持续了一个星期了,很奇怪

我觉得就是目标网站负载太大,所以采用异步的方式发送数据,但是我在scrapy里有怎么正确地收到他的数据呢?

黄舟
黄舟

人生最曼妙的风景,竟是内心的淡定与从容!

全部回复(2)
学霸

这种情况通常是违规抓取,服务端进行了防抓取限制。如果是合法抓取的话,可以和内容方面沟通,看看是不是有误伤,如果是非法抓取,还建议不要这样做了,严重的话可能有被起诉的风险

过去多啦不再A梦

被防采集了,可以试试换ip或寻找防采的限制漏洞

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!