바이두 티에바에서 수집
파이썬 2.7.11
스크래피 1.3.3
settings.py에서 user_agent가 활성화되어 있는 한 다음 방법 중 어떤 방법을 사용하든 상관 없습니다. 아무것도 고를 수 없었습니다.
그리고 이 user_agent를 끄세요. 모두 정상적으로 수집 가능합니다. 이게 이상한가요? 왜인지 모르시나요?
USER_AGENT = 'xxxxxxxxxxxxxxxxxxxxx'
또는 미들웨어 클래스 RotateUserAgentMiddleware(UserAgentMiddleware)를 작성하세요.
settings.py에서 설정
DOWNLOADER_MIDDLEWARES = {
으아악}
user_agent가 활성화되어 있는 한 아무것도 수집할 수 없습니다. 달리고 난 후. 다음 코드를 출력합니다:
으아악 으아악다음 중 어떤 방법을 사용해도 상관없습니다. 아무것도 고를 수 없었습니다.
그리고 이 user_agent를 끄세요. 모두 정상적으로 수집 가능합니다. 이게 이상한가요? 왜인지 모르시나요?
크롤링한 웹사이트에 크롤러 방지 조치가 취해졌을 수 있습니다
크롤링 방지 후 scrapy는 활성화된 후 헤드에 추가되며 비어 있거나 크롤링 방지되지 않을 수 있습니다.
브라우저를 모방하기 위해 사용자 에이전트 풀을 만드는 것이 좋습니다. 정기적으로 또는 무작위로 변경하는 것이 가장 안전한 방법입니다
User_Agent가 아니라 User-Agent입니다. 이전에도 이 문제가 있었지만 나중에 변경했습니다