python - 抓取一个代理ip网页,使用cookie但是报错
巴扎黑
巴扎黑 2017-04-18 10:31:00
0
1
685
from urllib.request import *
from http.cookiejar import *
url = 'http://www.kuaidaili.com/proxylist/8/'
cookies = MozillaCookieJar()
hander = HTTPCookieProcessor(cookies)
opener = build_opener(hander)
install_opener(opener)
html = urlopen(url).read()
print(html)

这个网页访问是需要cookie的,我用上述方法访问,显示:httperror:521错误异常

巴扎黑
巴扎黑

모든 응답(1)
Ty80

이것이 이 웹사이트의 전략입니다. 처음 방문하면 512가 반환되지만 페이지에는 여전히 콘텐츠가 있습니다.

으아아아

js에서 중요한 키를 숨기고 코드를 혼동시키는 역할을 하는 eval 함수를 통해 변환 점프를 수행하면 이 문제를 해결할 수 있습니다

설명: 프록시 웹사이트 자체가 크롤러의 프록시 제공자이며 크롤링 방지 기능이 매우 뛰어납니다. 크롤러의 초점은 주요 콘텐츠를 얻는 것이어야 한다고 생각합니다. 돈을 절약하기 위해 무료 프록시를 크롤링하면 시간이 많이 걸리고 효율성이 너무 낮습니다. 저는 회사에서 쿠아이다일리 유료 에이전트를 직접 사용하고 있는데 기본적으로 에이전트 확보에 대해 크게 생각하지 않고 그냥 동시성 높은 조건에서 어떻게 하면 에이전트를 더 잘 활용할 수 있을지 고민만 하면 됩니다~

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿