スーパーマルチIPアクセスソリューション/robots.txt

WBOY
リリース: 2016-06-13 12:18:26
オリジナル
1588 人が閲覧しました

非常に多くの IP が /robots.txt にアクセスしました
Apache のログにはこのような記録がたくさんあり、すべてが /robots.txt にアクセスしており、10 分以上で数万行になります。サーバーの CPU は 100% になることがよくあります。
スパイダーは robots.txt を頻繁にクロールしません。 。 。専門家に

66.249.65.147 - - [17/Oct/2014:10:14:38 0100] "GET /robots.txt HTTP/1.1" 200 -
(-なぜなら私は空の robots.txt が Web サイトのルート ディレクトリに作成されました)

------解決策のアイデア------ - ------
おかしいですね、CPUが100%占有されていることが問題なのでしょうか?
robots.txt をブロックして確認してください。
------ソリューションのアイデア----------------------
robots.txt で必要なのはプログラミングのみですそれは注意してください、それを置く必要はありません、それは負担ですその欠点を分析してください、そしてコメントを歓迎しましょう:
1. フロントページのバックグラウンドアドレスを呼び出していない場合、スパイダーはそれをクロールしません。 . スパイダーは css や js などをクロールしようとはしません。
2. robots.txt をセットアップするとき、多くの初心者は非常に従順です。彼らはスパイダーの這いをブロックするために機密アドレスを設定します。実際、厳格である限り、スパイダーは這うことはできませんが、下心を持つ人々はロボットに目を向けます。 .txt まず管理入口アドレスを見つけました。
3. どのスパイダーがやって来ても、最初にクロールするのは robots.txt であり、これがリソースを消費します。
このファイルは直接送信されるべきではなく、robots.txt によって引き起こされるものではありません。 100% の確率で到達します

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート