robots.txt ist die erste Datei, die Suchmaschinen beim Besuch einer Website betrachten. Es handelt sich um eine Textdatei, die verwendet wird, um den Umfang des Crawlings von Website-Inhalten durch Suchmaschinen anzugeben. Wenn ein Such-Spider eine Site besucht, prüft er zunächst, ob robots.txt im Stammverzeichnis der Site vorhanden ist. Falls vorhanden, bestimmt er den Umfang des Besuchs anhand des Inhalts in der Datei.
Während des Website-Erstellungsprozesses werden wir einige Inhalte haben, die nicht von Suchmaschinen gecrawlt werden oder im Internet erscheinen sollen. Was sollen wir also tun? Tun? ? Wie kann ich Suchmaschinen anweisen, meine xx-Inhalte nicht zu crawlen? Hier kommen Roboter zum Einsatz.
robots.txt ist die erste Datei, die Suchmaschinen beim Besuch einer Website betrachten. Die Datei Robots.txt teilt dem Spider mit, welche Dateien auf dem Server angezeigt werden können.
Wenn ein Such-Spider eine Website besucht, prüft er zunächst, ob robots.txt im Stammverzeichnis der Website vorhanden ist. Wenn vorhanden, bestimmt der Suchroboter den Zugriffsbereich anhand des Inhalts Wenn die Datei nicht vorhanden ist, können alle Suchspider auf alle Seiten der Website zugreifen, die nicht durch ein Passwort geschützt sind.
Syntax: Die einfachste robots.txt-Datei verwendet zwei Regeln:
• User-Agent: Der Roboter, für den die folgenden Regeln gelten
• Disallow: Die Webseite für blockiert werden
Aber es gibt ein paar Punkte, auf die wir achten müssen:
1.robots.txt muss im Stammverzeichnis der Website gespeichert werden,
2. Der Name muss robots.txt lauten und der Dateiname muss vollständig in Kleinbuchstaben geschrieben sein.
3.Robots.txt ist die erste Seite, die eine Suchmaschine die Website besucht
4. Der Benutzeragent muss in Robots.txt angegeben werden
Robots .txt-Missverständnisse
Missverständnis 1: Alle Dateien auf meiner Website müssen von Spidern gecrawlt werden, daher besteht für mich keine Notwendigkeit, die robots.txt-Datei hinzuzufügen. Wenn die Datei jedoch nicht vorhanden ist, können alle Suchspider auf alle Seiten der Website zugreifen, die nicht standardmäßig durch ein Passwort geschützt sind.
Immer wenn ein Benutzer versucht, auf eine URL zuzugreifen, die nicht existiert, zeichnet der Server einen 404-Fehler (Datei kann nicht gefunden) im Protokoll auf. Immer wenn ein Suchspider nach einer robots.txt-Datei sucht, die nicht existiert, zeichnet der Server auch einen 404-Fehler im Protokoll auf, daher sollten Sie Ihrer Website eine robots.txt-Datei hinzufügen.
Missverständnis 2: Wenn alle Dateien in der robots.txt-Datei so eingestellt werden, dass sie von Suchspidern gecrawlt werden, kann dies die Inklusionsrate der Website erhöhen.
Selbst wenn die Programmskripte, Stylesheets und andere Dateien in die Website von Spiders eingebunden werden, erhöht dies nicht die Einbindungsrate der Website und verschwendet nur Serverressourcen. Daher müssen Sie in der robots.txt-Datei festlegen, dass Suchspider diese Dateien nicht indizieren können.
Die spezifischen Dateien, die ausgeschlossen werden müssen, werden im Artikel Tipps zur Verwendung von Robots.txt ausführlich beschrieben.
Missverständnis 3: Such-Spider verschwenden Serverressourcen beim Crawlen von Webseiten. Alle in der robots.txt-Datei festgelegten Such-Spider können nicht alle Webseiten crawlen.
In diesem Fall wird die gesamte Website nicht von Suchmaschinen indexiert.
Tipps zur Verwendung von robots.txt
1. Immer wenn ein Benutzer versucht, auf eine nicht vorhandene URL zuzugreifen, zeichnet der Server einen 404-Fehler auf (Datei kann nicht gefunden werden). ) im Protokoll ). Immer wenn ein Suchspider nach einer nicht vorhandenen robots.txt-Datei sucht, zeichnet der Server auch einen 404-Fehler im Protokoll auf, daher sollten Sie Ihrer Site eine robots.txt-Datei hinzufügen.
2. Website-Administratoren müssen Spider-Programme von Verzeichnissen auf bestimmten Servern fernhalten, um die Serverleistung sicherzustellen. Beispiel: Auf den meisten Website-Servern sind Programme im Verzeichnis „cgi-bin“ gespeichert. Daher empfiehlt es sich, „Disallow: /cgi-bin“ zur robots.txt-Datei hinzuzufügen, um zu verhindern, dass alle Programmdateien von Spidern indiziert werden . Kann Serverressourcen sparen. Zu den Dateien auf allgemeinen Websites, die nicht von Spidern gecrawlt werden müssen, gehören: Hintergrundverwaltungsdateien, Programmskripte, Anhänge, Datenbankdateien, Codierungsdateien, Stylesheet-Dateien, Vorlagendateien, Navigationsbilder und Hintergrundbilder usw.
Das Folgende ist die robots.txt-Datei in VeryCMS:
Benutzeragent: *
Nicht zulassen: /admin/ Hintergrundverwaltungsdatei
Nicht zulassen: /require/ Programmdatei
Nicht zulassen: /attachment/ attachment
Nicht zulassen: /images/ picture
Nicht zulassen: /data/ Datenbankdatei
Nicht zulassen: / template/ Vorlagendatei
Nicht zulassen: /css/ Stylesheet-Datei
Nicht zulassen: /lang/ Codierungsdatei
Nicht zulassen: /script/ Skriptdatei
3. Wenn Ihre Website über dynamische Webseiten verfügt und Sie statische Kopien dieser dynamischen Webseiten erstellen, um das Crawlen durch Suchspider zu erleichtern. Anschließend müssen Sie in der robots.txt-Datei Einstellungen einrichten, um zu verhindern, dass dynamische Webseiten von Spidern indiziert werden, um sicherzustellen, dass diese Webseiten nicht als doppelte Inhalte enthaltend betrachtet werden.
4. Der Link zur Sitemap-Datei kann auch direkt in die robots.txt-Datei eingebunden werden. So:
Sitemap: http://www.***.com/sitemap.xml
Zu den Suchmaschinenunternehmen, die dies derzeit unterstützen, gehören Google, Yahoo, Ask und MSN. Chinesische Suchmaschinenunternehmen gehören offensichtlich nicht zu diesem Kreis. Dies hat den Vorteil, dass der Webmaster nicht zu den Webmaster-Tools oder ähnlichen Webmaster-Bereichen jeder Suchmaschine gehen muss, um seine eigene Sitemap-Datei einzureichen. Der Suchmaschinen-Spider crawlt die robots.txt-Datei und liest den Inhalt darin. Sitemap-Pfad und crawlen Sie dann die verlinkten Webseiten.
5. Durch die ordnungsgemäße Verwendung der robots.txt-Datei können auch Fehler beim Zugriff vermieden werden. Sie können beispielsweise nicht zulassen, dass Suchende direkt zur Warenkorbseite gelangen. Da es keinen Grund für die Einbindung des Warenkorbs gibt, können Sie dies in der robots.txt-Datei festlegen, um zu verhindern, dass Suchende die Warenkorbseite direkt aufrufen
Das obige ist der detaillierte Inhalt vonWas ist robots.txt?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!