웹사이트 크롤링을 금지하도록 PHP를 설정하는 방법-PHP 문제-php.cn

웹사이트 크롤링을 금지하도록 PHP를 설정하는 방법

藏色散人

풀어 주다： 2023-03-03 08:00:01

원래의

3084명이 탐색했습니다.

PHP에서 크롤링을 금지하는 방법: 먼저 "$_SERVER['HTTP_USER_AGENT'];" 방법을 통해 UA 정보를 얻은 다음 악성 "USER_AGENT"를 배열에 저장하고 마지막으로 빈 "USER_AGENT"와 같은 주류 수집 프로그램을 비활성화합니다. .

웹사이트 크롤링을 금지하도록 PHP를 설정하는 방법

1. Apache

①, .htaccess 파일을 수정하여

2. Nginx 코드

nginx 설치 디렉터리 아래 conf 디렉터리에 들어가서 다음 코드를 agent_deny.conf
cd /usr/local/nginx로 저장합니다. /conf
vim Agent_deny.conf

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {
return 403;
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}

로그인 후 복사

그런 다음 웹 사이트 관련 구성에서 위치 / { 뒤에 다음 코드를 삽입합니다.
include Agent_deny.conf;
예를 들어 Zhang Ge의 블로그 구성:
[marsge@Mars_Server ~ ]$ cat /usr/ local/nginx/conf/zhangge.conf

location / {
try_files $uri $uri/ /index.php?$args;
#这个位置新增1行：
include agent_deny.conf;
rewrite ^/sitemap_360_sp.txt$ /sitemap_360_sp.php last;
rewrite ^/sitemap_baidu_sp.xml$ /sitemap_baidu_sp.php last;
rewrite ^/sitemap_m.xml$ /sitemap_m.php last;
保存后，执行如下命令，平滑重启nginx即可：
/usr/local/nginx/sbin/nginx -s reload

로그인 후 복사

3. PHP 코드

웹사이트 항목 파일 index.php의 첫 번째 //UA 정보 가져오기

$ua = $_SERVER[&#39;HTTP_USER_AGENT&#39;];
//将恶意USER_AGENT存入数组
$now_ua = array(&#39;FeedDemon &#39;,&#39;BOT/0.1 (BOT for JCE)&#39;,&#39;CrawlDaddy &#39;,&#39;Java&#39;,&#39;Feedly&#39;,&#39;UniversalFeedParser&#39;,&#39;ApacheBench&#39;,&#39;Swiftbot&#39;,&#39;ZmEu&#39;,&#39;Indy Library&#39;,&#39;oBot&#39;,&#39;jaunty&#39;,&#39;YandexBot&#39;,&#39;AhrefsBot&#39;,&#39;MJ12bot&#39;,&#39;WinHttp&#39;,&#39;EasouSpider&#39;,&#39;HttpClient&#39;,&#39;Microsoft URL Control&#39;,&#39;YYSpider&#39;,&#39;jaunty&#39;,&#39;Python-urllib&#39;,&#39;lightDeckReports Bot&#39;);

로그인 후 복사

//비어 있는 USER_AGENT를 비활성화하고, dedecms 및 기타 주류 수집 프로그램은 모두 비어 있으며, 일부 SQL 주입 도구도 비어 있습니다. USER_AGENT

if(!$ua) {
header("Content-type: text/html; charset=utf-8");
die(&#39;请勿采集本站，因为采集的站长木有小JJ！&#39;);
}else{
foreach($now_ua as $value )
//判断是否是数组中存在的UA
if(eregi($value,$ua)) {
header("Content-type: text/html; charset=utf-8");
die(&#39;请勿采集本站，因为采集的站长木有小JJ！&#39;);
}
}

로그인 후 복사

4. 테스트 효과

vps인 경우 매우 간단합니다. 컬을 사용하세요. -A 크롤링 시뮬레이션 예:
Yisou Spider의 크롤링 시뮬레이션:
curl -I -A 'YisouSpider' zhang.ge
빈 UA의 크롤링 시뮬레이션:
curl -I -A '' zhang.ge
Baidu Spider Take 크롤링 시뮬레이션:
curl -I -A 'Baiduspider' zhang.ge

웹사이트 디렉토리에서 .htaccess를 수정하고 다음 코드(선택적 2개 코드)를 추가합니다. 세 가지 크롤링 결과의 스크린샷은 다음과 같습니다.

服务器反爬虫攻略：Apache/Nginx/PHP禁止某些User Agent抓取网站