Webサイトのクロールを禁止するようにPHPを設定する方法-PHPの問題-php.cn

1. Apache

①. .htaccess ファイルを変更する

2. Nginx コード

3. PHP コード

4. テスト効果

補足: 翌日、nginx ログ効果のスクリーンショットを確認してください:

5. 付録: UA コレクション

ホームページ

バックエンド開発

PHPの問題

Webサイトのクロールを禁止するようにPHPを設定する方法

藏色散人

Jul 24, 2020 am 09:35 AM

php

php でクロールを禁止する方法: 最初に "$_SERVER['HTTP_USER_AGENT'];" メソッドを通じて UA 情報を取得し、次に悪意のある "USER_AGENT" を配列に保存し、最後に空の " などの主流の収集を禁止します。 USER_AGENT」プログラム。

Webサイトのクロールを禁止するようにPHPを設定する方法

推奨: 「PHP チュートリアル」

インターネット上には多数のクローラーが存在することは誰もが知っています。 Baidu Spider のように Web サイトに含めるのに役立つクローラーもありますが、Yisou Spider ( 最新の追加: Yisou Spider が UC Shenma Search に買収されました! したがって、この記事は Yisou Spider の禁止対象から削除されました! ==>関連記事)。最近、Zhang Ge 氏は、nginx のログに Yisou やその他のゴミのクロール記録が大量にあることを発見し、ゴミグモが Web サイトをクロールできないようにするためのインターネット上のさまざまな方法をまとめ、自分の Web サイトを立ち上げました。すべてのウェブマスター向けのリファレンスも提供されています。

1. Apache

①. .htaccess ファイルを変更する

2. Nginx コード

nginx インストールディレクトリの下の conf ディレクトリに入り、変更しますコードを次のように保存します。agent_deny.conf
cd /usr/local/nginx/conf
vim Agent_deny.conf

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {
return 403;
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}

ログイン後にコピー

次に、Web サイトの location / { の後に次のコードを挿入します。関連設定:
include Agent_deny.conf;
Zhang Ge のブログの設定など:
[marsge@Mars_Server ~]$ cat /usr/local/nginx/conf/zhangge.conf

location / {
try_files $uri $uri/ /index.php?$args;
#这个位置新增1行：
include agent_deny.conf;
rewrite ^/sitemap_360_sp.txt$ /sitemap_360_sp.php last;
rewrite ^/sitemap_baidu_sp.xml$ /sitemap_baidu_sp.php last;
rewrite ^/sitemap_m.xml$ /sitemap_m.php last;
保存后，执行如下命令，平滑重启nginx即可：
/usr/local/nginx/sbin/nginx -s reload

ログイン後にコピー

3. PHP コード

Web サイトの入り口ファイル、index.php の最初の //UA 情報の取得

$ua = $_SERVER[&#39;HTTP_USER_AGENT&#39;];
//将恶意USER_AGENT存入数组
$now_ua = array(&#39;FeedDemon &#39;,&#39;BOT/0.1 (BOT for JCE)&#39;,&#39;CrawlDaddy &#39;,&#39;Java&#39;,&#39;Feedly&#39;,&#39;UniversalFeedParser&#39;,&#39;ApacheBench&#39;,&#39;Swiftbot&#39;,&#39;ZmEu&#39;,&#39;Indy Library&#39;,&#39;oBot&#39;,&#39;jaunty&#39;,&#39;YandexBot&#39;,&#39;AhrefsBot&#39;,&#39;MJ12bot&#39;,&#39;WinHttp&#39;,&#39;EasouSpider&#39;,&#39;HttpClient&#39;,&#39;Microsoft URL Control&#39;,&#39;YYSpider&#39;,&#39;jaunty&#39;,&#39;Python-urllib&#39;,&#39;lightDeckReports Bot&#39;);

ログイン後にコピー

//禁止されている空の USER_AGENT、dedecms およびその他の主流の収集プログラムはすべて空の USER_AGENT であり、一部の SQL インジェクションツールも空の USER_AGENT

if(!$ua) {
header("Content-type: text/html; charset=utf-8");
die(&#39;请勿采集本站，因为采集的站长木有小JJ！&#39;);
}else{
foreach($now_ua as $value )
//判断是否是数组中存在的UA
if(eregi($value,$ua)) {
header("Content-type: text/html; charset=utf-8");
die(&#39;请勿采集本站，因为采集的站长木有小JJ！&#39;);
}
}

ログイン後にコピー

4. テスト効果

vps であれば非常に簡単です、例:
Yisou Spider のクロールをシミュレートするには、curl -A を使用します:
curl -I -A 'YisouSpider' zhang.ge
UA が空の場合のクロールのシミュレート:
curl - I -A ' ' zhang.ge
Baidu Spider のクロールをシミュレートします:
curl -I -A 'Baiduspider' zhang.ge

Web サイトディレクトリの .htaccess を変更し、次のコードを追加します。コード (2 種類のコードはオプション): 3 つのクローリング結果のスクリーンショットは次のとおりです:

服务器反爬虫攻略：Apache/Nginx/PHP禁止某些User Agent抓取网站

# Yisou Spider と UA の空のリターンが、 403 Forbidden Access ロゴ、Baidu Spider は Return 200 を成功させましたが、説明は有効です。

補足: 翌日、nginx ログ効果のスクリーンショットを確認してください:

①. 空の UA 情報を含むガベージコレクションがインターセプトされます:

服务器反爬虫攻略：Apache/Nginx/PHP禁止某些User Agent抓取网站

②. 禁止された UA は傍受されます:

服务器反爬虫攻略：Apache/Nginx/PHP禁止某些User Agent抓取网站

したがって、スパムスパイダーを収集するために、Web サイトのアクセスログを分析して、目に見えないものを見つけることができます。スパイダーの名前が正しい場合は、そのスパイダーを前のコードの禁止リストに追加して、クロールを禁止できます。

5. 付録: UA コレクション

以下は、インターネット上で一般的なスパム UA のリストです (参考のみ)。自由に追加してください。

rree

以上がWebサイトのクロールを禁止するようにPHPを設定する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7677

CakePHP チュートリアル

1393

C# チュートリアル

1207

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレードガイド Dec 24, 2024 pm 04:42 PM

PHP 8.4 では、いくつかの新機能、セキュリティの改善、パフォーマンスの改善が行われ、かなりの量の機能の非推奨と削除が行われています。このガイドでは、Ubuntu、Debian、またはその派生版に PHP 8.4 をインストールする方法、または PHP 8.4 にアップグレードする方法について説明します。

今まで知らなかったことを後悔している 7 つの PHP 関数 Nov 13, 2024 am 09:42 AM

あなたが経験豊富な PHP 開発者であれば、すでにそこにいて、すでにそれを行っていると感じているかもしれません。あなたは、運用を達成するために、かなりの数のアプリケーションを開発し、数百万行のコードをデバッグし、大量のスクリプトを微調整してきました。

PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 Dec 20, 2024 am 11:31 AM

Visual Studio Code (VS Code とも呼ばれる) は、すべての主要なオペレーティングシステムで利用できる無料のソースコードエディター (統合開発環境 (IDE)) です。多くのプログラミング言語の拡張機能の大規模なコレクションを備えた VS Code は、

JSON Web Tokens（JWT）とPHP APIでのユースケースを説明してください。 Apr 05, 2025 am 12:04 AM

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

PHPでHTML/XMLを解析および処理するにはどうすればよいですか？ Feb 07, 2025 am 11:57 AM

このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML（拡張可能なマークアップ言語）は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます

母音を文字列にカウントするPHPプログラム Feb 07, 2025 pm 12:12 PM

文字列は、文字、数字、シンボルを含む一連の文字です。このチュートリアルでは、さまざまな方法を使用してPHPの特定の文字列内の母音の数を計算する方法を学びます。英語の母音は、a、e、i、o、u、そしてそれらは大文字または小文字である可能性があります。母音とは何ですか？母音は、特定の発音を表すアルファベットのある文字です。大文字と小文字など、英語には5つの母音があります。 a、e、i、o、u 例1 入力：string = "tutorialspoint" 出力：6 説明する文字列「TutorialSpoint」の母音は、u、o、i、a、o、iです。合計で6元があります

PHPでの後期静的結合を説明します（静的：:)。 Apr 03, 2025 am 12:04 AM

静的結合（静的：:) PHPで後期静的結合（LSB）を実装し、クラスを定義するのではなく、静的コンテキストで呼び出しクラスを参照できるようにします。 1）解析プロセスは実行時に実行されます。2）継承関係のコールクラスを検索します。3）パフォーマンスオーバーヘッドをもたらす可能性があります。

PHPマジックメソッド（__construct、__destruct、__call、__get、__setなど）とは何ですか？ Apr 03, 2025 am 12:03 AM

PHPの魔法の方法は何ですか？ PHPの魔法の方法には次のものが含まれます。1。\ _ \ _コンストラクト、オブジェクトの初期化に使用されます。 2。\ _ \ _リソースのクリーンアップに使用される破壊。 3。\ _ \ _呼び出し、存在しないメソッド呼び出しを処理します。 4。\ _ \ _ get、dynamic属性アクセスを実装します。 5。\ _ \ _セット、動的属性設定を実装します。これらの方法は、特定の状況で自動的に呼び出され、コードの柔軟性と効率を向上させます。

See all articles

Webサイトのクロールを禁止するようにPHPを設定する方法

1. Apache

①. .htaccess ファイルを変更する

2. Nginx コード

3. PHP コード

4. テスト効果

補足: 翌日、nginx ログ効果のスクリーンショットを確認してください:

5. 付録: UA コレクション

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック