python - scrapy를 사용하여 크롤러를 작성하면 서버가 모두 202를 직접 반환합니다.

Question

제가 크롤링한 것은 중국판결문서네트워크(China Judgment Documents Network)였습니다. 요청을 보냈더니 서버가 200을 반환했는데, 일주일 전에 갑자기 모든 요청이 202를 반환했습니다. 응답 본문도 비어 있었고 데이터를 전혀 가져올 수 없었으며 콜백 함수에서 차단하고 기다렸습니다.

欧阳克 · Answer

이 상황은 일반적으로 불법 크롤링으로 인해 발생하며 서버에서는 크롤링 방지 제한을 구현했습니다. 합법적으로 캡쳐한 경우 콘텐츠 부서에 연락하여 우발적인 피해가 있는지 확인할 수 있습니다. 불법으로 캡쳐한 경우에는 기소될 위험이 있으므로 이러한 행위는 하지 않는 것이 좋습니다.

过去多啦不再A梦 · Answer

수집이 막혔을 경우, IP 주소를 변경하거나 허점을 찾아 수확을 막을 수 있습니다