python - 抓取一个代理ip网页，使用cookie但是报错

Question

{代码...} 这个网页访问是需要cookie的，我用上述方法访问，显示：httperror：521错误异常

PHP中文网 · Answer

这个网站的策略就是这样，你的第一次访问都是会返回512的，但是页面还是有内容的

他把重要的key隐藏到js中，并通过eval函数进行转换跳转，起到一个混搅代码的作用，使用selenium的话也许可以解决这个问题

话外: 代理网站本身自己就是爬虫的代理提供者，在这反爬上面是做的很不错的。我觉得一个爬虫的重心应该是搞定主要内容，如果为了节约钱去爬取免费代理，这上面花的时间是很多的，效率未免太低了。我在公司里是直接用的kuaidaili的付费代理，基本没有在代理获取上想太多，只需要思考高并发条件下如何更好的利用代理就OK了～