Historisch gesehen konnten Suchmaschinen-Crawler wie Googlebot nur statischen HTML-Quellcode lesen und waren nicht in der Lage, dynamisch mit JavaScript geschriebenes Material zu scannen und zu indizieren. Dies hat sich jedoch mit dem Aufkommen von JavaScript-reichen Websites und Frameworks wie Angular, React und Vue.JS sowie Single-Page-Anwendungen (SPA) und Progressive Web Applications (PWA) geändert. Um Webseiten vor der Indexierung korrekt anzuzeigen, hat Google seine bisherige AJAX-Crawling-Technologie geändert und eingestellt. Obwohl Google im Allgemeinen die meisten JavaScript-Informationen crawlen und indizieren kann, raten sie davon ab, clientseitige Lösungen zu verwenden, da JavaScript „schwer zu verarbeiten ist und nicht alle Suchmaschinen-Crawler es korrekt oder schnell verarbeiten können“.
Was ist Google Fetch?Jede Suchmaschine verfügt über eine einzigartige Sammlung von Crawlern. Für Google gibt es mehr als 15 verschiedene Arten von Crawlern, wobei der Googlebot der wichtigste ist. Da der Googlebot das Crawling und die Indexierung durchführt, werden wir seine Funktionsweise genauer untersuchen.
Wie funktioniert der Google-Crawler?
Nachdem der Googlebot eine neue Website gefunden hat, rendert (oder „visualisiert“) er die Website im Browser, indem er sämtliches HTML, Code von Drittanbietern, JavaScript und CSS lädt. Suchmaschinen verwenden diese in Datenbanken gespeicherten Daten, um Seiten zu indizieren und zu bewerten. Die Seite wird in den Google-Index aufgenommen, der bei Indexierung eine zusätzliche, sehr große Google-Datenbank darstellt.
JavaScript- und HTML-Rendering
Bitte beachten Sie beim Rendern von JavaScript, dass sich die Sprache schnell weiterentwickelt und Googlebot manchmal die Unterstützung der neuesten Version nicht mehr unterstützt. Stellen Sie sicher, dass Ihr JavaScript mit Googlebot kompatibel ist, damit Ihre Website nicht angezeigt wird Zu Unrecht. Stellen Sie sicher, dass JavaScript schnell geladen wird. Der Googlebot rendert und indiziert kein per Skript generiertes Material, wenn das Laden länger als fünf Sekunden dauert.
Wann sollte JavaScript zum Scrapen verwendet werden?
Alle Ressourcen (einschließlich JavaScript, CSS und Bilder) müssen selektiv gecrawlt werden, um jede Webseite anzuzeigen und das DOM in einem Headless-Browser im Hintergrund zu erstellen. Das Crawlen von JavaScript ist langsamer und arbeitsintensiver.
Während dies für kleinere Websites kein Problem darstellt, kann es bei größeren Websites mit Hunderten oder sogar Millionen Seiten erhebliche Auswirkungen haben. Wenn Ihre Website nicht stark auf JavaScript zur dynamischen Änderung von Webseiten angewiesen ist, müssen Sie weder Zeit noch Ressourcen aufwenden.
Beim Umgang mit JavaScript und Webseiten mit dynamischem Inhalt (DOM) muss der Crawler das Document Object Model lesen und auswerten. Nachdem der gesamte Code geladen und verarbeitet wurde, muss auch eine vollständig angezeigte Version einer solchen Website generiert werden. Browser sind für uns das einfachste Werkzeug, um angezeigte Webseiten anzuzeigen. Aus diesem Grund wird das Crawlen von JavaScript manchmal als Verwendung eines „kopflosen Browsers“ beschrieben.
Fazit
Das obige ist der detaillierte Inhalt vonWird Google JavaScript crawlen, das Textinhalte enthält?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!