> 백엔드 개발 > 파이썬 튜토리얼 > Python 크롤러가 403 오류 해결 방법을 반환합니다.

Python 크롤러가 403 오류 해결 방법을 반환합니다.

伊谢尔伦
풀어 주다: 2017-04-29 10:05:50
원래의
6501명이 탐색했습니다.

문제

데이터를 크롤링할 때 일반적으로 디버깅 정보는 다음과 같습니다.

DEBUG: Crawled (200) <GET http://www.php.cn/> (referer: None)
로그인 후 복사

DEBUG: Crawled (403) <GET http://www.php.cn/> (referer: None)
로그인 후 복사

가 나타나면 웹 사이트가 웹 크롤링 방지 기술을 사용한다는 의미입니다( Amazon에서 사용) 사용자 에이전트(User Agent) 정보를 확인하는 방법은 비교적 간단합니다.

해결책

아래 표시된 대로 요청 헤더에 사용자 에이전트를 구성합니다.

def start_requests(self):  
    yield Request("http://www.php.cn/",  
                  headers={&#39;User-Agent&#39;: "your agent string"})
로그인 후 복사


위 내용은 Python 크롤러가 403 오류 해결 방법을 반환합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿