Maison Les sujets SEO Qu'est-ce que robots.txt ?

Qu'est-ce que robots.txt ?

May 23, 2019 am 11:01 AM

robots.txt est le premier fichier que les moteurs de recherche consultent lorsqu'ils visitent un site Web. Il s'agit d'un fichier texte utilisé pour spécifier l'étendue de l'exploration du contenu d'un site Web par les moteurs de recherche. Lorsqu'un moteur de recherche visite un site, il vérifie d'abord si le fichier robots.txt existe dans le répertoire racine du site. S'il existe, il déterminera l'étendue de la visite en fonction du contenu du fichier.

Qu'est-ce que robots.txt ?

Pendant le processus de construction du site Web, nous aurons du contenu que nous ne voulons pas qu'il soit exploré par les moteurs de recherche ou qu'il apparaisse sur Internet, alors que devrions-nous faire? ? Comment puis-je dire aux moteurs de recherche de ne pas explorer mon contenu xx ? C’est là que les robots sont utiles.

robots.txt est le premier fichier que les moteurs de recherche consultent lorsqu'ils visitent un site Web. Le fichier Robots.txt indique au robot quels fichiers sur le serveur peuvent être consultés.

Lorsqu'un robot de recherche visite un site, il vérifiera d'abord si le fichier robots.txt existe dans le répertoire racine du site. S'il existe, le robot de recherche déterminera la portée de la visite en fonction du contenu qu'il contient. le fichier ; si Si le fichier n'existe pas, tous les robots de recherche pourront accéder à toutes les pages du site Web qui ne sont pas protégées par mot de passe.

Syntaxe : Le fichier robots.txt le plus simple utilise deux règles :

• User-Agent : Le robot auquel les règles suivantes s'appliquent

• Interdire : La page Web à être bloqué

Mais il y a quelques points auxquels nous devons prêter attention :

1.robots.txt doit être stocké dans le répertoire racine du site Web,

2. Son nom doit être robots.txt et le nom du fichier doit être entièrement en minuscules.

3.Robots.txt est la première page sur laquelle un moteur de recherche visite le site Web

4. L'agent utilisateur doit être spécifié dans Robots.txt

robots. Malentendus .txt

Malentendu 1 : Tous les fichiers de mon site Web doivent être explorés par des araignées, je n'ai donc pas besoin d'ajouter le fichier robots.txt. Quoi qu'il en soit, si le fichier n'existe pas, tous les robots de recherche pourront accéder à toutes les pages du site Web qui ne sont pas protégées par mot de passe par défaut.

Chaque fois qu'un utilisateur tente d'accéder à une URL qui n'existe pas, le serveur enregistrera une erreur 404 (le fichier est introuvable) dans le journal. Chaque fois qu'un robot de recherche recherche un fichier robots.txt qui n'existe pas, le serveur enregistre également une erreur 404 dans le journal, vous devez donc ajouter un fichier robots.txt à votre site Web.

Malentendu 2 : configurer tous les fichiers du fichier robots.txt pour qu'ils soient explorés par les robots de recherche peut augmenter le taux d'inclusion du site Web.

Même si les scripts de programme, les feuilles de style et autres fichiers du site Web sont inclus par des araignées, cela n'augmentera pas le taux d'inclusion du site Web et ne fera que gaspiller les ressources du serveur. Par conséquent, vous devez le définir dans le fichier robots.txt pour ne pas permettre aux robots de recherche d'indexer ces fichiers.

Les fichiers spécifiques qui doivent être exclus sont détaillés dans l'article Conseils sur l'utilisation de Robots.txt.

Malentendu 3 : les robots de recherche gaspillent les ressources du serveur lors de l'exploration des pages Web. Tous les robots de recherche définis dans le fichier robots.txt ne peuvent pas explorer toutes les pages Web.

Si tel est le cas, l'intégralité du site internet ne sera pas indexé par les moteurs de recherche.

Conseils d'utilisation du fichier robots.txt

1. Chaque fois qu'un utilisateur tente d'accéder à une URL inexistante, le serveur enregistrera une erreur 404 (le fichier est introuvable ) dans le journal ). Chaque fois qu'un moteur de recherche recherche un fichier robots.txt qui n'existe pas, le serveur enregistre également une erreur 404 dans le journal, vous devez donc ajouter un fichier robots.txt à votre site.

2. Les administrateurs de sites Web doivent éloigner les programmes Spider des répertoires de certains serveurs pour garantir les performances du serveur. Par exemple : la plupart des serveurs de sites Web ont des programmes stockés dans le répertoire "cgi-bin", c'est donc une bonne idée d'ajouter "Disallow: /cgi-bin" au fichier robots.txt pour empêcher tous les fichiers programme d'être indexés par les robots. . Peut économiser les ressources du serveur. Les fichiers des sites Web généraux qui n'ont pas besoin d'être explorés par les robots comprennent : les fichiers de gestion d'arrière-plan, les scripts de programme, les pièces jointes, les fichiers de base de données, les fichiers d'encodage, les fichiers de feuilles de style, les fichiers de modèles, les images de navigation et les images d'arrière-plan, etc.

Voici le fichier robots.txt dans VeryCMS :

Agent utilisateur : *

Interdire : /admin/ Fichier de gestion d'arrière-plan

Interdire : / require/ fichier programme

Interdire : /attachment/ attachment

Interdire : /images/ image

Interdire : /data/ fichier de base de données

Interdire : / template/ fichier modèle

Interdire : /css/ fichier de feuille de style

Interdire : /lang/ fichier d'encodage

Interdire : /script/ fichier de script

3. Si votre site Web comporte des pages Web dynamiques et que vous créez des copies statiques de ces pages Web dynamiques pour les rendre plus faciles à explorer par les robots de recherche. Ensuite, vous devez configurer les paramètres dans le fichier robots.txt pour empêcher les pages Web dynamiques d'être indexées par les robots afin de garantir que ces pages Web ne seront pas considérées comme contenant du contenu en double.

4. Le lien vers le fichier plan du site peut également être inclus directement dans le fichier robots.txt. Comme ceci :

Plan du site : http://www.***.com/sitemap.xml

Les sociétés de moteurs de recherche qui prennent actuellement en charge cela incluent Google, Yahoo, Ask et MSN. Les sociétés chinoises de moteurs de recherche ne font évidemment pas partie de ce cercle. L'avantage est que le webmaster n'a pas besoin d'accéder aux outils pour les webmasters ou aux sections webmaster similaires de chaque moteur de recherche pour soumettre son propre fichier de plan de site. L'araignée du moteur de recherche explorera le fichier robots.txt et en lira le contenu. chemin du plan du site, puis explorez les pages Web liées.

5. Une bonne utilisation du fichier robots.txt peut également éviter des erreurs lors de l'accès. Par exemple, vous ne pouvez pas permettre aux chercheurs d’accéder directement à la page du panier. Puisqu'il n'y a aucune raison pour que le panier soit inclus, vous pouvez le définir dans le fichier robots.txt pour empêcher les chercheurs d'accéder directement à la page du panier

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

La prochaine vague de recherche: mode AI, recherche profonde et au-delà La prochaine vague de recherche: mode AI, recherche profonde et au-delà Apr 01, 2025 am 11:49 AM

L'IA transforme les moteurs de recherche des directeurs d'information aux fournisseurs de réponses directes. Ce changement a un impact sur le référencement, la découverte de contenu et le marketing numérique, invitant les questions sur l'avenir de la recherche. Les progrès récents d'IA accélèrent ce ch

Rencontrez llms.txt, une norme proposée pour le contenu du site Web de l'IA rampant Rencontrez llms.txt, une norme proposée pour le contenu du site Web de l'IA rampant Apr 01, 2025 am 11:52 AM

Jeremy Howard, technologue australien, propose un nouveau standard, LLMS.TXT, conçu pour améliorer l'accès des modèles de langue (LLMS) et le contenu du site Web d'index. Cette norme, similaire à Robots.txt et XML, vise à rationaliser les Proces

Pagination et référencement: ce que vous devez savoir en 2025 Pagination et référencement: ce que vous devez savoir en 2025 Apr 01, 2025 am 11:54 AM

Pourquoi vos produits de commerce électronique et vos articles de blog pourraient être invisibles pour Google: le puzzle de pagination La pagination de votre site Web entrave-t-elle son classement de recherche Google? Cet article plonge dans les complexités de la pagination, ses implications SEO et son R

Les derniers emplois en marketing de recherche Les derniers emplois en marketing de recherche Apr 01, 2025 am 11:51 AM

Découvrez des opportunités de carrière passionnantes dans le marketing de recherche! Cette liste organisée met en valeur les derniers travaux de référencement, de PPC et de marketing numérique de grandes marques et agences. Nous avons également inclus des positions des semaines précédentes qui restent ouvertes. Chaud

Google laisse tomber l'IA pendant la navigation Google laisse tomber l'IA pendant la navigation Apr 02, 2025 am 09:25 AM

La fonctionnalité "AI While While Browing" de Google, précédemment connue sous le nom de «SGE pendant la navigation», a été abandonnée. Bien que Google n'ait pas exprimé publiquement la raison, la suppression de la fonctionnalité est documentée dans leur section d'aide. Qu'est-ce que l'IA pendant B

Google mars 2025 Le déploiement de la mise à jour de la mise à jour est maintenant terminé Google mars 2025 Le déploiement de la mise à jour de la mise à jour est maintenant terminé Apr 02, 2025 am 09:24 AM

La mise à jour Google Core de mars 2025: une analyse complète La mise à jour de base de Google en mars 2025, qui a commencé le 13 mars et s'est terminée le 27 mars, est maintenant terminée. Cette mise à jour, un ajustement standard de l'algorithme de classement de base de Google, visant à Enha

Rôles SEO à distance et à distance dans le déclin: rapport Rôles SEO à distance et à distance dans le déclin: rapport Apr 02, 2025 am 09:52 AM

Le marché du travail SEO change, selon le rapport d'emploi à l'état de référence en 2025. Une baisse significative des rôles SEO à distance et axée sur le contenu a été observée, les listes baissant respectivement 34% et 28%. Inversement, le leadership posi

See all articles