So verhindern Sie, dass Roboter PHP crawlen-PHP-Problem-php.cn

So verhindern Sie, dass Roboter PHP crawlen

藏色散人

Freigeben： 2023-03-08 16:28:02

Original

2289 Leute haben es durchsucht

Methoden, um das Crawlen von PHP durch Roboter zu verhindern: 1. Schreiben Sie „Disallow: /*?*“ in die robots.txt-Datei. 2. Fügen Sie die Regel „User-agent:* Allow: .html$“ in die robots.txt-Datei hinzu Disallow: /" reicht aus.

So verhindern Sie, dass Roboter PHP crawlen

Die Betriebsumgebung dieses Artikels: Windows 7-System, PHP-Version 7.1, DELL G3-Computer

Roboter verhindern, dass Suchmaschinen dynamische PHP-URLs crawlen

Die sogenannten dynamischen URLs bedeuten, dass die URL Folgendes enthält ? , & und andere zeichenartige URLs, wie zum Beispiel: news.php?lang=cn&class=1&id=2 Nachdem wir die pseudostatische URL der Website aktiviert haben, ist es aus Gründen der Suchmaschinenoptimierung der Website erforderlich, zu verhindern, dass Suchmaschinen die dynamische URL der Website crawlen unsere Website.

Warum machst du das? Dies liegt daran, dass die Suchmaschine einige Aktionen auf der Website auslöst, nachdem sie dieselbe Seite zweimal gecrawlt hat, aber letztendlich festgestellt wird, dass es sich um dieselbe Seite handelt. Es ist nicht klar, wie dies konkret bestraft werden soll. Kurz gesagt, es ist nicht förderlich für die Suchmaschinenoptimierung der gesamten Website von. Wie kann man also verhindern, dass Suchmaschinen die dynamische URL unserer Website crawlen?

Verwenden Sie die robots.txt-Datei, um dieses Problem zu lösen. Bitte sehen Sie sich die detaillierte Vorgehensweise unten an.

Wir wissen, dass dynamische Seiten alle ein gemeinsames Merkmal haben, das heißt, dass der Link ein „?“-Fragezeichensymbol enthält, sodass wir die folgenden Regeln in die robots.txt-Datei schreiben können:

User-agent: *
Disallow: /*?*

Nach dem Login kopieren

Das ist die Suche Engines ist es untersagt, die dynamischen Links der gesamten Website zu crawlen. Wenn wir außerdem möchten, dass Suchmaschinen nur bestimmte Dateitypen crawlen, z. B. statische Seiten im HTML-Format, können wir robots.txt die folgenden Regeln hinzufügen:

User-agent: *
Allow: .html$
Disallow: /

Nach dem Login kopieren

Denken Sie auch daran, die geschriebene robots.txt-Datei in In abzulegen im Stammverzeichnis Ihrer Website, sonst funktioniert es nicht. Darüber hinaus gibt es eine einfache Verknüpfung zum Schreiben von Regeln. Melden Sie sich bei den Google Webmaster-Tools an, schreiben Sie einfach die Regeln hinein und generieren Sie dann die robots.txt-Datei.

【Empfohlenes Lernen: „PHP-Video-Tutorial“】

Das obige ist der detaillierte Inhalt vonSo verhindern Sie, dass Roboter PHP crawlen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!