Was ist robots.txt?-SEO-php.cn

Heim

Themen

SEO

Was ist robots.txt?

藏色散人

May 23, 2019 am 11:01 AM

robots.txt ist die erste Datei, die Suchmaschinen beim Besuch einer Website betrachten. Es handelt sich um eine Textdatei, die verwendet wird, um den Umfang des Crawlings von Website-Inhalten durch Suchmaschinen anzugeben. Wenn ein Such-Spider eine Site besucht, prüft er zunächst, ob robots.txt im Stammverzeichnis der Site vorhanden ist. Falls vorhanden, bestimmt er den Umfang des Besuchs anhand des Inhalts in der Datei.

Was ist robots.txt?

Während des Website-Erstellungsprozesses werden wir einige Inhalte haben, die nicht von Suchmaschinen gecrawlt werden oder im Internet erscheinen sollen. Was sollen wir also tun? Tun? ? Wie kann ich Suchmaschinen anweisen, meine xx-Inhalte nicht zu crawlen? Hier kommen Roboter zum Einsatz.

robots.txt ist die erste Datei, die Suchmaschinen beim Besuch einer Website betrachten. Die Datei Robots.txt teilt dem Spider mit, welche Dateien auf dem Server angezeigt werden können.

Wenn ein Such-Spider eine Website besucht, prüft er zunächst, ob robots.txt im Stammverzeichnis der Website vorhanden ist. Wenn vorhanden, bestimmt der Suchroboter den Zugriffsbereich anhand des Inhalts Wenn die Datei nicht vorhanden ist, können alle Suchspider auf alle Seiten der Website zugreifen, die nicht durch ein Passwort geschützt sind.

Syntax: Die einfachste robots.txt-Datei verwendet zwei Regeln:

• User-Agent: Der Roboter, für den die folgenden Regeln gelten

• Disallow: Die Webseite für blockiert werden

Aber es gibt ein paar Punkte, auf die wir achten müssen:

1.robots.txt muss im Stammverzeichnis der Website gespeichert werden,

2. Der Name muss robots.txt lauten und der Dateiname muss vollständig in Kleinbuchstaben geschrieben sein.

3.Robots.txt ist die erste Seite, die eine Suchmaschine die Website besucht

4. Der Benutzeragent muss in Robots.txt angegeben werden

Robots .txt-Missverständnisse

Missverständnis 1: Alle Dateien auf meiner Website müssen von Spidern gecrawlt werden, daher besteht für mich keine Notwendigkeit, die robots.txt-Datei hinzuzufügen. Wenn die Datei jedoch nicht vorhanden ist, können alle Suchspider auf alle Seiten der Website zugreifen, die nicht standardmäßig durch ein Passwort geschützt sind.

Immer wenn ein Benutzer versucht, auf eine URL zuzugreifen, die nicht existiert, zeichnet der Server einen 404-Fehler (Datei kann nicht gefunden) im Protokoll auf. Immer wenn ein Suchspider nach einer robots.txt-Datei sucht, die nicht existiert, zeichnet der Server auch einen 404-Fehler im Protokoll auf, daher sollten Sie Ihrer Website eine robots.txt-Datei hinzufügen.

Missverständnis 2: Wenn alle Dateien in der robots.txt-Datei so eingestellt werden, dass sie von Suchspidern gecrawlt werden, kann dies die Inklusionsrate der Website erhöhen.

Selbst wenn die Programmskripte, Stylesheets und andere Dateien in die Website von Spiders eingebunden werden, erhöht dies nicht die Einbindungsrate der Website und verschwendet nur Serverressourcen. Daher müssen Sie in der robots.txt-Datei festlegen, dass Suchspider diese Dateien nicht indizieren können.

Die spezifischen Dateien, die ausgeschlossen werden müssen, werden im Artikel Tipps zur Verwendung von Robots.txt ausführlich beschrieben.

Missverständnis 3: Such-Spider verschwenden Serverressourcen beim Crawlen von Webseiten. Alle in der robots.txt-Datei festgelegten Such-Spider können nicht alle Webseiten crawlen.

In diesem Fall wird die gesamte Website nicht von Suchmaschinen indexiert.

Tipps zur Verwendung von robots.txt

1. Immer wenn ein Benutzer versucht, auf eine nicht vorhandene URL zuzugreifen, zeichnet der Server einen 404-Fehler auf (Datei kann nicht gefunden werden). ) im Protokoll ). Immer wenn ein Suchspider nach einer nicht vorhandenen robots.txt-Datei sucht, zeichnet der Server auch einen 404-Fehler im Protokoll auf, daher sollten Sie Ihrer Site eine robots.txt-Datei hinzufügen.

2. Website-Administratoren müssen Spider-Programme von Verzeichnissen auf bestimmten Servern fernhalten, um die Serverleistung sicherzustellen. Beispiel: Auf den meisten Website-Servern sind Programme im Verzeichnis „cgi-bin“ gespeichert. Daher empfiehlt es sich, „Disallow: /cgi-bin“ zur robots.txt-Datei hinzuzufügen, um zu verhindern, dass alle Programmdateien von Spidern indiziert werden . Kann Serverressourcen sparen. Zu den Dateien auf allgemeinen Websites, die nicht von Spidern gecrawlt werden müssen, gehören: Hintergrundverwaltungsdateien, Programmskripte, Anhänge, Datenbankdateien, Codierungsdateien, Stylesheet-Dateien, Vorlagendateien, Navigationsbilder und Hintergrundbilder usw.

Das Folgende ist die robots.txt-Datei in VeryCMS:

Benutzeragent: *

Nicht zulassen: /admin/ Hintergrundverwaltungsdatei

Nicht zulassen: /require/ Programmdatei

Nicht zulassen: /attachment/ attachment

Nicht zulassen: /images/ picture

Nicht zulassen: /data/ Datenbankdatei

Nicht zulassen: / template/ Vorlagendatei

Nicht zulassen: /css/ Stylesheet-Datei

Nicht zulassen: /lang/ Codierungsdatei

Nicht zulassen: /script/ Skriptdatei

3. Wenn Ihre Website über dynamische Webseiten verfügt und Sie statische Kopien dieser dynamischen Webseiten erstellen, um das Crawlen durch Suchspider zu erleichtern. Anschließend müssen Sie in der robots.txt-Datei Einstellungen einrichten, um zu verhindern, dass dynamische Webseiten von Spidern indiziert werden, um sicherzustellen, dass diese Webseiten nicht als doppelte Inhalte enthaltend betrachtet werden.

4. Der Link zur Sitemap-Datei kann auch direkt in die robots.txt-Datei eingebunden werden. So:

Sitemap: http://www.***.com/sitemap.xml

Zu den Suchmaschinenunternehmen, die dies derzeit unterstützen, gehören Google, Yahoo, Ask und MSN. Chinesische Suchmaschinenunternehmen gehören offensichtlich nicht zu diesem Kreis. Dies hat den Vorteil, dass der Webmaster nicht zu den Webmaster-Tools oder ähnlichen Webmaster-Bereichen jeder Suchmaschine gehen muss, um seine eigene Sitemap-Datei einzureichen. Der Suchmaschinen-Spider crawlt die robots.txt-Datei und liest den Inhalt darin. Sitemap-Pfad und crawlen Sie dann die verlinkten Webseiten.

5. Durch die ordnungsgemäße Verwendung der robots.txt-Datei können auch Fehler beim Zugriff vermieden werden. Sie können beispielsweise nicht zulassen, dass Suchende direkt zur Warenkorbseite gelangen. Da es keinen Grund für die Einbindung des Warenkorbs gibt, können Sie dies in der robots.txt-Datei festlegen, um zu verhindern, dass Suchende die Warenkorbseite direkt aufrufen

Das obige ist der detaillierte Inhalt vonWas ist robots.txt?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

1 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

1 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7416

CakePHP-Tutorial

1359

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

Related knowledge

Die nächste Suchwelle: KI -Modus, tiefe Forschung und darüber hinaus Apr 01, 2025 am 11:49 AM

KI verwandelt Suchmaschinen von Information Direktoren in direkte Antwortanbieter. Diese Verschiebung wirkt sich auf SEO, Inhaltserkennung und digitales Marketing aus und stellt Fragen zur Zukunft der Suche auf. Die jüngsten KI -Fortschritte beschleunigen dieses CH

Treffen Sie LLMs.txt, einen vorgeschlagenen Standard für AI -Website -Inhaltekriechen Apr 01, 2025 am 11:52 AM

Jeremy Howard, ein australischer Technologe, schlägt einen neuen Standard, LLMS.TXT, vor, der die Art und Weise, wie große Sprachmodelle (LLMs) aufwebsite und Index -Website -Inhalte zugänglich sind. Dieser Standard, ähnlich wie bei Robots.txt und XML -Sitemaps, zielt darauf ab, die Proces zu optimieren

Pagination und SEO: Was Sie 2025 wissen müssen Apr 01, 2025 am 11:54 AM

Warum Ihre E -Commerce -Produkte und Blog -Beiträge für Google unsichtbar sind: Das Paginationspuzzle Behindert die Pagination Ihrer Website das Google -Search -Ranking? Dieser Artikel befasst sich mit den Komplexität der Pagination, seinen SEO -Auswirkungen und seinen r

AD -Entführung: Verständnis der Bedrohung und des Lernens von Adidas Apr 01, 2025 pm 05:09 PM

Die neuesten Jobs im Suchmarketing Apr 01, 2025 am 11:51 AM

Entdecken Sie aufregende Karrieremöglichkeiten im Suchmarketing! Diese kuratierte Liste zeigt die neuesten SEO-, PPC- und Digital -Marketing -Jobs von führenden Marken und Agenturen. Wir haben auch einige Positionen aus früheren Wochen aufgenommen, die geöffnet bleiben. Hotte

Google lässt KI fallen, während Apr 02, 2025 am 09:25 AM

Googles "KI beim Durchsuchen" -Funktion, das zuvor als "SGE beim Browsing" bezeichnet wurde, wurde eingestellt. Während Google den Grund nicht öffentlich erklärt hat, ist die Entfernung der Funktion in ihrem Hilfsbereich dokumentiert. Was war KI während B

Google März 2025 CORE UPDATE ROLLOUT ist jetzt abgeschlossen Apr 02, 2025 am 09:24 AM

Das Google Core -Update im März 2025: Eine umfassende Analyse Googles Kern -Update von Google 2025, das am 13. März begann und am 27. März abgeschlossen wurde, ist nun abgeschlossen. Dieses Update, eine Standardanpassung an Googles Kernranking -Algorithmus, zielte auf Enha ab

Remote, Inhaltsseo -Rollen im Niedergang: Bericht Apr 02, 2025 am 09:52 AM

Der SEO -Arbeitsmarkt verlagert sich laut dem inviquiible SEO -Stellenbericht von 2025. Es wurde ein signifikanter Rückgang der Fern- und inhaltsorientierten SEO-Rollen beobachtet, wobei die Auflistungen um 34% bzw. 28% sinken. Umgekehrt Führung posi

See all articles