백엔드 개발 파이썬 튜토리얼 Python 크롤러의 403 액세스 금지 오류에 대한 자세한 설명

Python 크롤러의 403 액세스 금지 오류에 대한 자세한 설명

Mar 13, 2017 am 09:44 AM

이 글은 파이썬 크롤러의 403 접근 금지 오류에 대한 자세한 설명을 중심으로 관련 정보를 소개하고 있습니다. 필요한 친구들은 참고하시면 됩니다.

파이썬 크롤러는 403 접근 금지 오류를 해결합니다

Python으로 크롤러를 작성할 때 html.getcode()는 403 액세스 금지 문제에 직면하게 됩니다. 이는 웹사이트에서 자동화된 크롤러를 금지하는 문제입니다. 이 문제를 해결하려면 python 모듈 urllib2 모듈을 사용해야 합니다.

urllib2 모듈은 고급 크롤러 크롤링 모듈입니다. 예를 들어 url=http://blog.csdn.NET/qysh123에 연결하면 403 액세스 금지 문제가 발생할 수 있습니다. 이 연결

이 문제를 해결하려면 다음 단계가 필요합니다.


<span style="font-size:18px;">req = urllib2.Request(url) 
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36") 
req.add_header("GET",url) 
req.add_header("Host","blog.csdn.net") 
req.add_header("Referer","http://blog.csdn.net/")</span>
로그인 후 복사

여기서 User-Agent는 브라우저별 속성, 브라우저를 통해 소스코드를 보면

을 볼 수 있고


html=urllib2.urlopen(req)


print html.read()
로그인 후 복사

를 보면 403 문제 없이 모든 웹페이지 코드를 다운로드할 수 있다. 접근 금지.

위 문제의 경우 향후 호출 편의를 위해 함수 로 캡슐화할 수 있습니다. 구체적인 코드는


#-*-coding:utf-8-*- 
 
import urllib2 
import random 
 
url="http://blog.csdn.net/qysh123/article/details/44564943" 
 
my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36", 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36", 
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0" 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14", 
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)" 
   
] 
def get_content(url,headers): 
  ''''' 
  @获取403禁止访问的网页 
  ''' 
  randdom_header=random.choice(headers) 
 
  req=urllib2.Request(url) 
  req.add_header("User-Agent",randdom_header) 
  req.add_header("Host","blog.csdn.net") 
  req.add_header("Referer","http://blog.csdn.net/") 
  req.add_header("GET",url) 
 
  content=urllib2.urlopen(req).read() 
  return content 
 
print get_content(url,my_headers)
로그인 후 복사
입니다.

랜덤 함수는 작성된 브라우저 유형의 User-Agent 정보를 자동으로 가져오는 데 사용됩니다. 커스텀 함수에는 호스트, 리퍼러, GET 정보를 직접 작성해야 합니다. 등을 이용하여 이러한 문제를 해결하시면 원활하게 접속하실 수 있으며, 403 접속 정보가 더 이상 나타나지 않게 됩니다.

물론 접속 빈도가 너무 빠르면 일부 웹사이트가 필터링될 수 있습니다. 이 문제를 해결하려면 프록시 IP 방식을 사용해야 합니다. . . 직접 해결해 보세요.

읽어주셔서 감사합니다. 모두에게 도움이 되기를 바랍니다. 이 사이트를 지원해 주셔서 감사합니다!

위 내용은 Python 크롤러의 403 액세스 금지 오류에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

뜨거운 기사 태그

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까? Mar 10, 2025 pm 06:54 PM

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?

파이썬의 이미지 필터링 파이썬의 이미지 필터링 Mar 03, 2025 am 09:44 AM

파이썬의 이미지 필터링

파이썬에서 파일을 다운로드하는 방법 파이썬에서 파일을 다운로드하는 방법 Mar 01, 2025 am 10:03 AM

파이썬에서 파일을 다운로드하는 방법

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법 Mar 05, 2025 am 09:58 AM

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법

플라스크에 소개 : 연락처 페이지 추가 플라스크에 소개 : 연락처 페이지 추가 Feb 28, 2025 am 10:03 AM

플라스크에 소개 : 연락처 페이지 추가

Python을 사용하여 PDF 문서를 사용하는 방법 Python을 사용하여 PDF 문서를 사용하는 방법 Mar 02, 2025 am 09:54 AM

Python을 사용하여 PDF 문서를 사용하는 방법

Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법 Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법 Mar 02, 2025 am 10:10 AM

Django 응용 프로그램에서 Redis를 사용하여 캐시하는 방법

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까? Mar 10, 2025 pm 06:52 PM

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?

See all articles