python - 禁止自己的网站被爬虫爬去?
大家讲道理
大家讲道理 2017-04-17 17:33:35
0
13
1027

禁止自己的网站被爬虫爬去?有什么方法啊

大家讲道理
大家讲道理

光阴似箭催人老,日月如移越少年。

모든 응답(13)
迷茫

콘텐츠가 포함된 robots.txt 파일 추가:

으아악
刘奇

robots.txt를 추가하여 크롤러가 내 웹사이트를 크롤링하지 않도록 하세요. 하지만 강제로 차단되지는 않습니다. 이는 양 당사자가 준수해야 하는 합의일 뿐입니다.

巴扎黑

당신이 말하는 크롤러가 바이두 크롤러를 말하는 것인지, 아니면 저희가 직접 작성한 크롤러를 말하는 것인지는 모르겠습니다.

Baidu 크롤러는 위의 방법만 따르면 됩니다. 모든 클래스나 ID를 동적으로 생성하는 등 다른 사람의 크롤러를 방지하는 방법은 많습니다. 크롤러는 일반적으로 클래스나 ID를 통해 원하는 것을 얻기 위해 HTML을 구문 분석하기 때문입니다.

大家讲道理

어떤 파충류인지에 따라서도 다릅니다
신사형? 세밀화?
이 크롤러가 robots.txt 계약을 준수할 수 있다면 괜찮습니다
하지만 이건 신사의 계약일 뿐입니다
악당을 만나면 괜찮습니다

迷茫

1) JS용 gzip 압축을 시도할 수 있습니다. 많은 크롤러는 gzip으로 압축된 js를 크롤링하지 않습니다.
2) 로그를 사용하여 주요 리소스에 대한 악의적인 액세스인 경우 상대방 고정 IP이므로 상대방 IP를 차단해 볼 수 있습니다

黄舟

공정하게 말하면 절대 불가능합니다

Peter_Zhu

무슨 소용이 없나요? 일단 웹사이트가 사람들에게 공개되어 있다면, 내부 네트워크로 바꾸지 않는 한 자연스럽게 크롤러들에게 공개될 것입니다. 요즘에는 기밀정보 웹사이트가 다 돌아다닐 뿐 사용자 경험은 기본적으로 개선되지 않습니다.

迷茫

아, 클래스와 ID를 엉망으로 만들어 정규 규칙이 일치하지 않게 할 수 있습니다

阿神

js를 사용하여 웹페이지의 모든 콘텐츠를 동적으로 생성하는 것이 가능한지 모르겠습니다

巴扎黑

우선 위에서 언급한 내부 네트워크가 아닌 이상 크롤러가 100% 크롤링되는 것을 방지하기는 어렵습니다.

그러나 일부 기술이 부족한 크롤러가 귀하의 웹사이트를 크롤링하는 것을 방지하기 위해 몇 가지 조치를 취할 수 있습니다.

구체적인 조치를 보려면 Zhihu로 이동하여 이 기사를 읽으려면 여기를 클릭하세요

도움이 되셨으면 좋겠습니다

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!