为了避免爬虫被封 IP ,网上搜索教程说需要建立代理池。但是付费代理都好贵。。。不过好在网上已经有不少免费提供代理的网站了。因此,我打算写个爬虫去获取这些免费 IP ~
策略步骤
用种子关键词例如“代理 IP ”在各个搜索引擎上搜索,获取候选 URL
爬取候选 URL ,将代理地址储存下来
验证代理地址,将可用的代理地址放入代理池
难点
如何去验证维护这些代理地址
如何知道哪些代理地址适合哪些网站(可用性,响应时间)
效率问题(之前写过简单的验证脚本,但是效率非常低)
小伙伴们有不有什么好的办法能解决这些问题呢?
Izinkan saya menulisnya, kebetulan saya pernah melakukan kerja yang sama, dan saya juga memerlukan ejen pada masa itu.
Bagi alamat proksi, saya tidak membenarkan perangkak memilih tapak web dengan sendirinya, saya menapis secara manual beberapa tapak web yang menyediakan proksi percuma dan kemudian menulis beberapa perangkak untuk merangkak tapak web proksi yang berbeza
Sebagai tindak balas kepada kesukaran yang anda nyatakan:Anda boleh mencuba ini, kumpulan proksi berasaskan Python.
Tangkap sumber proksi di Internet secara automatik dan memudahkan pengembangan.
https://github.com/WiseDoge/P...
Anda boleh lihat projek ini: https://github.com/jhao104/pr...
Perkhidmatan kumpulan proksi sumber terbuka