robots.txt とは何ですか?-SEO-php.cn

ホームページ

トピック

SEO

robots.txt とは何ですか?

藏色散人

May 23, 2019 am 11:01 AM

Robots.txt は、検索エンジンが Web サイトにアクセスしたときに最初に参照するファイルで、検索エンジンによる Web サイトコンテンツのクロール範囲を指定するために使用されるテキストファイルです。検索スパイダーがサイトを訪問すると、まずサイトのルートディレクトリに robots.txt が存在するかどうかを確認し、存在する場合はファイル内の内容に基づいて訪問範囲を決定します。

robots.txt とは何ですか?

ウェブサイト構築の過程で、検索エンジンによってクロールされたくないコンテンツや、検索エンジンに表示されたくないコンテンツがいくつか出てきます。インターネットだからどうすればいいの？？私の xx コンテンツをクロールしないように検索エンジンに指示するにはどうすればよいですか?ここでロボットが役に立ちます。

Robots.txt は、Web サイトにアクセスしたときに検索エンジンが最初に調べるファイルです。 Robots.txt ファイルは、サーバー上のどのファイルを表示できるかをスパイダーに伝えます。

検索スパイダーがサイトを訪問すると、まずサイトのルートディレクトリに robots.txt が存在するかどうかを確認し、存在する場合はその内容に基づいてアクセス範囲を決定します。ファイル; if ファイルが存在しない場合、すべての検索スパイダーは、パスワードで保護されていない Web サイト上のすべてのページにアクセスできます。

構文: 最も単純な robots.txt ファイルでは 2 つのルールが使用されます:

• ユーザーエージェント: 次のルールが適用されるロボット

• 禁止: Web ページが

ただし、いくつかの点に注意する必要があります:

1.robots.txt は Web サイトのルートディレクトリ

に保存する必要があります。

2. ファイル名は robots.txt とし、ファイル名はすべて小文字にする必要があります。

3.Robots.txt は、検索エンジンが Web サイトにアクセスする最初のページです

4.Robots.txt ではユーザーエージェントを指定する必要があります

robots.txt の誤解

誤解 1: Web サイト上のすべてのファイルはスパイダーによってクロールされる必要があるため、robots.txt ファイルを追加する必要はありません。とにかく、ファイルが存在しない場合、すべての検索スパイダーは、デフォルトでパスワードで保護されていない Web サイト上のすべてのページにアクセスできます。

ユーザーが存在しない URL にアクセスしようとすると、サーバーはログに 404 エラー (ファイルが見つかりません) を記録します。検索スパイダーが存在しない robots.txt ファイルを検索するたびに、サーバーはログに 404 エラーを記録するため、Web サイトに robots.txt を追加する必要があります。

誤解 2: robots.txt ファイル内のすべてのファイルが検索スパイダーによってクロールされるように設定すると、Web サイトの包含率が高まる可能性があります。

Web サイト内のプログラムスクリプト、スタイルシート、その他のファイルがスパイダーによってインクルードされたとしても、Web サイトのインクルード率は向上せず、サーバーリソースを浪費するだけです。したがって、検索スパイダーによるこれらのファイルのインデックス作成を許可しないように、robots.txt ファイルで設定する必要があります。

除外する必要がある特定のファイルについては、「Robots.txt の使用に関するヒント」の記事で詳しく説明されています。

誤解 3: 検索スパイダーは Web ページをクロールするときにサーバーリソースを無駄にします robots.txt ファイルに設定されているすべての検索スパイダーがすべての Web ページをクロールできるわけではありません。

この場合、Web サイト全体が検索エンジンによってインデックス付けされなくなります。

robots.txt 使用上のヒント

1. ユーザーが存在しない URL にアクセスしようとすると、サーバーは 404 エラー (ファイルが見つかりません) を記録します。 ) ログに記録されます)。検索スパイダーが存在しない robots.txt ファイルを検索するたびに、サーバーはログに 404 エラーを記録するため、サイトに robots.txt を追加する必要があります。

2. Web サイト管理者は、サーバーのパフォーマンスを確保するために、スパイダープログラムをサーバー上の特定のディレクトリから遠ざける必要があります。例: ほとんどの Web サイトサーバーのプログラムは「cgi-bin」ディレクトリに保存されているため、すべてのプログラムファイルがスパイダーによってインデックス付けされるのを防ぐために、robots.txt ファイルに「Disallow: /cgi-bin」を追加することをお勧めします。 . サーバーリソースを節約できます。一般的な Web サイトでスパイダーによってクロールされる必要のないファイルには、バックグラウンド管理ファイル、プログラムスクリプト、添付ファイル、データベースファイル、エンコードファイル、スタイルシートファイル、テンプレートファイル、ナビゲーション画像および背景画像などが含まれます。

以下は、VeryCMS の robots.txt ファイルです:

ユーザーエージェント: *

許可しない: /admin/ バックグラウンド管理ファイル

許可しない: /require/ プログラムファイル

許可しない: /attachment/ Attachment

許可しない: /images/ Picture

許可しない: /data/ データベースファイル

許可しない: / template/ テンプレートファイル

# 許可しない: /css/ スタイルシートファイル

# 許可しない: /lang/ エンコードファイル

# 許可しない: /script/ スクリプトファイル

3. Web サイトに動的 Web ページがあり、これらの動的 Web ページの静的コピーを作成して、検索スパイダーがクロールしやすくする場合。次に、動的な Web ページがスパイダーによってインデックス付けされるのを防ぎ、これらの Web ページが重複したコンテンツを含んでいると見なされないように、robots.txt ファイル内で設定を行う必要があります。

4. robots.txt ファイルには、サイトマップファイルへのリンクを直接含めることもできます。このように:

サイトマップ: http://www.***.com/sitemap.xml

現在これをサポートしている検索エンジン会社には、Google、Yahoo、Ask、MSN などがあります。中国の検索エンジン企業は明らかにこの輪に属していない。この利点は、ウェブマスターが独自のサイトマップファイルを送信するために各検索エンジンのウェブマスターツールや同様のウェブマスターセクションに移動する必要がないことです。検索エンジンスパイダーは robots.txt ファイルをクロールして、その中のコンテンツを読み取ります。サイトマップパスを検索し、リンクされた Web ページをクロールします。

5. robots.txt ファイルを適切に使用すると、アクセス時のエラーを回避できます。たとえば、検索者をショッピングカートページに直接移動させることはできません。ショッピングカートを含める必要はないため、robots.txt ファイルに設定して、検索者がショッピングカートページに直接アクセスできないようにすることができます

以上がrobots.txt とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7529

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Googleは閲覧中にAIをドロップします Apr 02, 2025 am 09:25 AM

Googleの「ブラウジング中」機能は、以前は「Sge wony Browing」として知られていましたが、中止されました。 Googleはその理由を公に述べていませんが、機能の削除はヘルプセクションに文書化されています。 b

検索の次の波：AIモード、ディープリサーチなど Apr 01, 2025 am 11:49 AM

AIは、検索エンジンを情報ディレクターから回答プロバイダーに直接変換しています。このシフトは、SEO、コンテンツの発見、デジタルマーケティングに影響を与え、検索の将来に関する質問を促します。最近のAIの進歩は、このchを加速しています

広告ハイジャック：脅威を理解し、アディダスからの学習 Apr 01, 2025 pm 05:09 PM

ページネーションとSEO：2025年に知っておくべきこと Apr 01, 2025 am 11:54 AM

なぜあなたのeコマース製品とブログの投稿がGoogleに見えないかもしれない：ページネーションパズルあなたのウェブサイトのページネーションはGoogle検索のランキングを妨げていますか？この記事は、ページネーションの複雑さ、そのSEOへの影響、およびそのrを掘り下げています

Google 2025年3月コアアップデートロールアウトが完了しました Apr 02, 2025 am 09:24 AM

2025年3月Googleコアアップデート：包括的な分析 3月13日に始まり、3月27日に終了した2025年3月のコアアップデートは、現在完了しました。 Googleのコアランキングアルゴリズムへの標準調整であるこの更新は、Enhaを目指しています

AI Webサイトのコンテンツクロールの提案された標準であるLLMS.TXTに会います Apr 01, 2025 am 11:52 AM

オーストラリアの技術者であるジェレミー・ハワードは、新しい標準であるLLMS.TXTを提案しています。これは、言語モデル（LLM）アクセスとインデックスのWebサイトコンテンツを改善するために設計されています。この標準は、robots.txtとxml sitemapsと同様に、Procesの合理化を目指しています