Python 크롤러는 프록시를 사용하여 웹 페이지를 크롤링합니다.

大家讲道理
풀어 주다: 2016-11-07 10:59:51
원래의
2076명이 탐색했습니다.

프록시 유형(프록시): 투명 프록시, 익명 프록시, 난독화 프록시 및 고익명성 프록시. 다음은 Python 크롤러의 프록시 사용에 대한 지식과 프록시 풀 클래스입니다. 직장에서의 크롤링 문제.

urllib 모듈은 프록시를 사용합니다

urllib/urllib2에 프록시를 사용하는 것이 더 번거롭습니다. 먼저 ProxyHandler 클래스를 빌드한 다음 이 클래스를 사용하여 여는 오프너 클래스를 빌드해야 합니다. 웹 페이지를 확인한 후 요청에 사용하세요. 오프너를 설치하세요.

프록시 형식은 "http://127.0.0.1:80"입니다. 계정 비밀번호를 원하시면 "http:/"입니다. /user:password@127.0.0.1:80".

proxy="http://127.0.0.1:80"

# 创建一个ProxyHandler对象
proxy_support=urllib.request.ProxyHandler({'http':proxy})
# 创建一个opener对象
opener = urllib.request.build_opener(proxy_support)
# 给request装载opener
urllib.request.install_opener(opener)
# 打开一个url
r = urllib.request.urlopen('http://youtube.com',timeout = 500)
로그인 후 복사

요청 모듈은 프록시를 사용합니다

요청에 프록시를 사용하는 것은 urllib보다 훨씬 간단합니다... 여기서는 단일 프록시를 사용합니다. 예를 들어 세션 클래스를 사용하여 여러 번 구성할 수 있습니다.

프록시를 사용해야 하는 경우 단일 프록시를 구성할 수 있습니다. 모든 요청 방법에 대해 프록시 매개변수를 제공하여 요청할 수 있습니다.

import requests
proxies = {
  "http": "http://127.0.0.1:3128",
  "https": "http://127.0.0.1:2080",
}
r=requests.get("http://youtube.com", proxies=proxies)
print r.text
로그인 후 복사

프록시는 환경 변수 HTTP_PROXY 및 HTTPS_PROXY를 통해 구성됩니다.

export HTTP_PROXY="http://127.0.0.1:3128"
export HTTPS_PROXY="http://127.0.0.1:2080"
python
>>> import requests
>>> r=requests.get("http://youtube.com")
>>> print r.text
로그인 후 복사

프록시가 HTTP 기본 인증을 사용해야 하는 경우 http://user:password@host/를 사용할 수 있습니다. 구문:

proxies = {
    "http": "http://user:pass@127.0.0.1:3128/",
}
로그인 후 복사

Python의 프록시는 사용이 매우 간단합니다. . 가장 중요한 것은 안정적이고 안정적인 네트워크를 갖춘 에이전트를 찾는 것입니다. 궁금한 점이 있으면 메시지를 남겨주세요

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿