Was ist robots.txt?
robots.txt ist die erste Datei, die Suchmaschinen beim Besuch einer Website betrachten. Es handelt sich um eine Textdatei, die verwendet wird, um den Umfang des Crawlings von Website-Inhalten durch Suchmaschinen anzugeben. Wenn ein Such-Spider eine Site besucht, prüft er zunächst, ob robots.txt im Stammverzeichnis der Site vorhanden ist. Falls vorhanden, bestimmt er den Umfang des Besuchs anhand des Inhalts in der Datei.
Während des Website-Erstellungsprozesses werden wir einige Inhalte haben, die nicht von Suchmaschinen gecrawlt werden oder im Internet erscheinen sollen. Was sollen wir also tun? Tun? ? Wie kann ich Suchmaschinen anweisen, meine xx-Inhalte nicht zu crawlen? Hier kommen Roboter zum Einsatz.
robots.txt ist die erste Datei, die Suchmaschinen beim Besuch einer Website betrachten. Die Datei Robots.txt teilt dem Spider mit, welche Dateien auf dem Server angezeigt werden können.
Wenn ein Such-Spider eine Website besucht, prüft er zunächst, ob robots.txt im Stammverzeichnis der Website vorhanden ist. Wenn vorhanden, bestimmt der Suchroboter den Zugriffsbereich anhand des Inhalts Wenn die Datei nicht vorhanden ist, können alle Suchspider auf alle Seiten der Website zugreifen, die nicht durch ein Passwort geschützt sind.
Syntax: Die einfachste robots.txt-Datei verwendet zwei Regeln:
• User-Agent: Der Roboter, für den die folgenden Regeln gelten
• Disallow: Die Webseite für blockiert werden
Aber es gibt ein paar Punkte, auf die wir achten müssen:
1.robots.txt muss im Stammverzeichnis der Website gespeichert werden,
2. Der Name muss robots.txt lauten und der Dateiname muss vollständig in Kleinbuchstaben geschrieben sein.
3.Robots.txt ist die erste Seite, die eine Suchmaschine die Website besucht
4. Der Benutzeragent muss in Robots.txt angegeben werden
Robots .txt-Missverständnisse
Missverständnis 1: Alle Dateien auf meiner Website müssen von Spidern gecrawlt werden, daher besteht für mich keine Notwendigkeit, die robots.txt-Datei hinzuzufügen. Wenn die Datei jedoch nicht vorhanden ist, können alle Suchspider auf alle Seiten der Website zugreifen, die nicht standardmäßig durch ein Passwort geschützt sind.
Immer wenn ein Benutzer versucht, auf eine URL zuzugreifen, die nicht existiert, zeichnet der Server einen 404-Fehler (Datei kann nicht gefunden) im Protokoll auf. Immer wenn ein Suchspider nach einer robots.txt-Datei sucht, die nicht existiert, zeichnet der Server auch einen 404-Fehler im Protokoll auf, daher sollten Sie Ihrer Website eine robots.txt-Datei hinzufügen.
Missverständnis 2: Wenn alle Dateien in der robots.txt-Datei so eingestellt werden, dass sie von Suchspidern gecrawlt werden, kann dies die Inklusionsrate der Website erhöhen.
Selbst wenn die Programmskripte, Stylesheets und andere Dateien in die Website von Spiders eingebunden werden, erhöht dies nicht die Einbindungsrate der Website und verschwendet nur Serverressourcen. Daher müssen Sie in der robots.txt-Datei festlegen, dass Suchspider diese Dateien nicht indizieren können.
Die spezifischen Dateien, die ausgeschlossen werden müssen, werden im Artikel Tipps zur Verwendung von Robots.txt ausführlich beschrieben.
Missverständnis 3: Such-Spider verschwenden Serverressourcen beim Crawlen von Webseiten. Alle in der robots.txt-Datei festgelegten Such-Spider können nicht alle Webseiten crawlen.
In diesem Fall wird die gesamte Website nicht von Suchmaschinen indexiert.
Tipps zur Verwendung von robots.txt
1. Immer wenn ein Benutzer versucht, auf eine nicht vorhandene URL zuzugreifen, zeichnet der Server einen 404-Fehler auf (Datei kann nicht gefunden werden). ) im Protokoll ). Immer wenn ein Suchspider nach einer nicht vorhandenen robots.txt-Datei sucht, zeichnet der Server auch einen 404-Fehler im Protokoll auf, daher sollten Sie Ihrer Site eine robots.txt-Datei hinzufügen.
2. Website-Administratoren müssen Spider-Programme von Verzeichnissen auf bestimmten Servern fernhalten, um die Serverleistung sicherzustellen. Beispiel: Auf den meisten Website-Servern sind Programme im Verzeichnis „cgi-bin“ gespeichert. Daher empfiehlt es sich, „Disallow: /cgi-bin“ zur robots.txt-Datei hinzuzufügen, um zu verhindern, dass alle Programmdateien von Spidern indiziert werden . Kann Serverressourcen sparen. Zu den Dateien auf allgemeinen Websites, die nicht von Spidern gecrawlt werden müssen, gehören: Hintergrundverwaltungsdateien, Programmskripte, Anhänge, Datenbankdateien, Codierungsdateien, Stylesheet-Dateien, Vorlagendateien, Navigationsbilder und Hintergrundbilder usw.
Das Folgende ist die robots.txt-Datei in VeryCMS:
Benutzeragent: *
Nicht zulassen: /admin/ Hintergrundverwaltungsdatei
Nicht zulassen: /require/ Programmdatei
Nicht zulassen: /attachment/ attachment
Nicht zulassen: /images/ picture
Nicht zulassen: /data/ Datenbankdatei
Nicht zulassen: / template/ Vorlagendatei
Nicht zulassen: /css/ Stylesheet-Datei
Nicht zulassen: /lang/ Codierungsdatei
Nicht zulassen: /script/ Skriptdatei
3. Wenn Ihre Website über dynamische Webseiten verfügt und Sie statische Kopien dieser dynamischen Webseiten erstellen, um das Crawlen durch Suchspider zu erleichtern. Anschließend müssen Sie in der robots.txt-Datei Einstellungen einrichten, um zu verhindern, dass dynamische Webseiten von Spidern indiziert werden, um sicherzustellen, dass diese Webseiten nicht als doppelte Inhalte enthaltend betrachtet werden.
4. Der Link zur Sitemap-Datei kann auch direkt in die robots.txt-Datei eingebunden werden. So:
Sitemap: http://www.***.com/sitemap.xml
Zu den Suchmaschinenunternehmen, die dies derzeit unterstützen, gehören Google, Yahoo, Ask und MSN. Chinesische Suchmaschinenunternehmen gehören offensichtlich nicht zu diesem Kreis. Dies hat den Vorteil, dass der Webmaster nicht zu den Webmaster-Tools oder ähnlichen Webmaster-Bereichen jeder Suchmaschine gehen muss, um seine eigene Sitemap-Datei einzureichen. Der Suchmaschinen-Spider crawlt die robots.txt-Datei und liest den Inhalt darin. Sitemap-Pfad und crawlen Sie dann die verlinkten Webseiten.
5. Durch die ordnungsgemäße Verwendung der robots.txt-Datei können auch Fehler beim Zugriff vermieden werden. Sie können beispielsweise nicht zulassen, dass Suchende direkt zur Warenkorbseite gelangen. Da es keinen Grund für die Einbindung des Warenkorbs gibt, können Sie dies in der robots.txt-Datei festlegen, um zu verhindern, dass Suchende die Warenkorbseite direkt aufrufen
Das obige ist der detaillierte Inhalt vonWas ist robots.txt?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



KI verwandelt Suchmaschinen von Information Direktoren in direkte Antwortanbieter. Diese Verschiebung wirkt sich auf SEO, Inhaltserkennung und digitales Marketing aus und stellt Fragen zur Zukunft der Suche auf. Die jüngsten KI -Fortschritte beschleunigen dieses CH

Jeremy Howard, ein australischer Technologe, schlägt einen neuen Standard, LLMS.TXT, vor, der die Art und Weise, wie große Sprachmodelle (LLMs) aufwebsite und Index -Website -Inhalte zugänglich sind. Dieser Standard, ähnlich wie bei Robots.txt und XML -Sitemaps, zielt darauf ab, die Proces zu optimieren

Warum Ihre E -Commerce -Produkte und Blog -Beiträge für Google unsichtbar sind: Das Paginationspuzzle Behindert die Pagination Ihrer Website das Google -Search -Ranking? Dieser Artikel befasst sich mit den Komplexität der Pagination, seinen SEO -Auswirkungen und seinen r

Entdecken Sie aufregende Karrieremöglichkeiten im Suchmarketing! Diese kuratierte Liste zeigt die neuesten SEO-, PPC- und Digital -Marketing -Jobs von führenden Marken und Agenturen. Wir haben auch einige Positionen aus früheren Wochen aufgenommen, die geöffnet bleiben. Hotte

Googles "KI beim Durchsuchen" -Funktion, das zuvor als "SGE beim Browsing" bezeichnet wurde, wurde eingestellt. Während Google den Grund nicht öffentlich erklärt hat, ist die Entfernung der Funktion in ihrem Hilfsbereich dokumentiert. Was war KI während B

Das Google Core -Update im März 2025: Eine umfassende Analyse Googles Kern -Update von Google 2025, das am 13. März begann und am 27. März abgeschlossen wurde, ist nun abgeschlossen. Dieses Update, eine Standardanpassung an Googles Kernranking -Algorithmus, zielte auf Enha ab

Der SEO -Arbeitsmarkt verlagert sich laut dem inviquiible SEO -Stellenbericht von 2025. Es wurde ein signifikanter Rückgang der Fern- und inhaltsorientierten SEO-Rollen beobachtet, wobei die Auflistungen um 34% bzw. 28% sinken. Umgekehrt Führung posi
