Python 크롤러가 프록시를 사용하여 웹 페이지를 크롤링하는 방법에 대한 자세한 설명-파이썬 튜토리얼-php.cn

urllib 모듈은 프록시를 사용합니다

요청 모듈은 프록시를 사용합니다

집

백엔드 개발

파이썬 튜토리얼

Python 크롤러가 프록시를 사용하여 웹 페이지를 크롤링하는 방법에 대한 자세한 설명

高洛峰

Mar 19, 2017 pm 02:43 PM

프록시 유형(프록시): 투명 프록시, 익명 프록시, 혼동 프록시 및 고익명성 프록시. 프록시를 사용하는 python 크롤러에 대한 지식과 프록시 풀 클래스는 누구에게나 편리합니다. 작업의 다양한 측면을 처리합니다.

urllib 모듈은 프록시를 사용합니다

urllib/urllib2에 프록시를 사용하는 것이 더 번거롭습니다. 먼저 ProxyHandler 클래스를 빌드한 다음 이 클래스를 사용하여 여는 오프너 클래스를 빌드해야 합니다. 웹 페이지를 확인한 후 요청에 사용하세요. 오프너를 설치하세요.

프록시 형식은 "http://127.0.0.1:80"입니다. 계정 비밀번호를 원하시면 "http:/"입니다. /user:password@127.0.0.1:80".

proxy="http://127.0.0.1:80"
# 创建一个ProxyHandler对象
proxy_support=urllib.request.ProxyHandler({&#39;http&#39;:proxy})
# 创建一个opener对象
opener = urllib.request.build_opener(proxy_support)
# 给request装载opener
urllib.request.install_opener(opener)
# 打开一个url
r = urllib.request.urlopen(&#39;http://youtube.com&#39;,timeout = 500)

로그인 후 복사

요청 모듈은 프록시를 사용합니다

요청에 프록시를 사용하는 것은 urllib보다 훨씬 간단합니다... 여기서는 단일 프록시를 사용합니다. 예를 들어 여러 번 사용되는 경우 세션 유형의 구성을 사용할 수 있습니다.

프록시를 사용해야 하는 경우 프록시를 제공하여 단일 요청을 구성할 수 있습니다. 매개변수를 요청 방법에 추가:

import requests
proxies = {
  "http": "http://127.0.0.1:3128",
  "https": "http://127.0.0.1:2080",
}
r=requests.get("http://youtube.com", proxies=proxies)
print r.text

로그인 후 복사

환경 변수 HTTP_PROXY 및 HTTPS_PROXY를 통해 프록시를 구성할 수도 있습니다.

export HTTP_PROXY="http://127.0.0.1:3128"
export HTTPS_PROXY="http://127.0.0.1:2080"
python
>>> import requests
>>> r=requests.get("http://youtube.com")
>>> print r.text

로그인 후 복사

프록시가 HTTP 기본 인증을 사용해야 하는 경우 http://user:password@host/를 사용할 수 있습니다. 구문:

proxies = {
    "http": "http://user:pass@127.0.0.1:3128/",
}

로그인 후 복사

Python의 프록시는 사용이 매우 간단합니다. 안정적이고 안정적인 네트워크를 갖춘 에이전트를 찾는 것입니다. 궁금한 점이 있으면 메시지를 남겨주세요

위 내용은 Python 크롤러가 프록시를 사용하여 웹 페이지를 크롤링하는 방법에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7322

자바 튜토리얼

1625

Cakephp 튜토리얼

1349

라라벨 튜토리얼

1261

PHP 튜토리얼

1209

Related knowledge

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Mar 05, 2025 am 09:58 AM

이 튜토리얼은 Python을 사용하여 Zipf의 법칙의 통계 개념을 처리하는 방법을 보여주고 법을 처리 할 때 Python의 읽기 및 대형 텍스트 파일을 정렬하는 효율성을 보여줍니다. ZIPF 분포라는 용어가 무엇을 의미하는지 궁금 할 것입니다. 이 용어를 이해하려면 먼저 Zipf의 법칙을 정의해야합니다. 걱정하지 마세요. 지침을 단순화하려고 노력할 것입니다. Zipf의 법칙 Zipf의 법칙은 단순히 : 큰 자연어 코퍼스에서 가장 자주 발생하는 단어는 두 번째 빈번한 단어, 세 번째 빈번한 단어보다 세 번, 네 번째 빈번한 단어 등 4 배나 자주 발생합니다. 예를 살펴 보겠습니다. 미국 영어로 브라운 코퍼스를 보면 가장 빈번한 단어는 "TH입니다.

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? Mar 10, 2025 pm 06:54 PM

이 기사에서는 HTML을 구문 분석하기 위해 파이썬 라이브러리 인 아름다운 수프를 사용하는 방법을 설명합니다. 데이터 추출, 다양한 HTML 구조 및 오류 처리 및 대안 (SEL과 같은 Find (), find_all (), select () 및 get_text ()와 같은 일반적인 방법을 자세히 설명합니다.

파이썬의 이미지 필터링 Mar 03, 2025 am 09:44 AM

시끄러운 이미지를 다루는 것은 특히 휴대폰 또는 저해상도 카메라 사진에서 일반적인 문제입니다. 이 튜토리얼은 OpenCV를 사용 하여이 문제를 해결하기 위해 Python의 이미지 필터링 기술을 탐구합니다. 이미지 필터링 : 강력한 도구 이미지 필터

Python을 사용하여 PDF 문서를 사용하는 방법 Mar 02, 2025 am 09:54 AM

PDF 파일은 운영 체제, 읽기 장치 및 소프트웨어 전체에서 일관된 콘텐츠 및 레이아웃과 함께 크로스 플랫폼 호환성에 인기가 있습니다. 그러나 Python Processing Plain Text 파일과 달리 PDF 파일은 더 복잡한 구조를 가진 이진 파일이며 글꼴, 색상 및 이미지와 같은 요소를 포함합니다. 다행히도 Python의 외부 모듈로 PDF 파일을 처리하는 것은 어렵지 않습니다. 이 기사는 PYPDF2 모듈을 사용하여 PDF 파일을 열고 페이지를 인쇄하고 텍스트를 추출하는 방법을 보여줍니다. PDF 파일의 생성 및 편집에 대해서는 저의 다른 튜토리얼을 참조하십시오. 준비 핵심은 외부 모듈 PYPDF2를 사용하는 데 있습니다. 먼저 PIP를 사용하여 설치하십시오. PIP는 p입니다