Google verfügt über ein immenses Datenvolumen für Unternehmen und Forscher. Es führt täglich über 8,5 Milliarden Suchanfragen durch und verfügt über einen Anteil von 91 % am globalen Suchmaschinenmarkt.
Seit der Einführung von ChatGPT werden Google-Daten nicht nur für traditionelle Zwecke wie Rangverfolgung, Konkurrenzüberwachung und Lead-Generierung genutzt, sondern auch für die Entwicklung fortschrittlicher LLM-Modelle, das Training von KI-Modellen und die Verbesserung der Funktionen der Verarbeitung natürlicher Sprache ( NLP-Modelle.
Das Scrapen von Google ist jedoch nicht für jeden einfach. Es erfordert ein Team von Fachleuten und eine robuste Infrastruktur, um in großem Maßstab zu agieren.
In diesem Artikel erfahren Sie, wie Sie Google-Suchergebnisse mit Python und BeautifulSoup durchsuchen. Dadurch können Sie Ihre eigenen Tools und Modelle erstellen, die in der Lage sind, die Daten von Google in großem Maßstab zu nutzen.
Lasst uns anfangen!
Google-Suchergebnisse sind die Einträge, die auf Google basierend auf der in die Suchleiste eingegebenen Benutzeranfrage angezeigt werden. Google nutzt NLP in großem Umfang, um diese Abfragen zu verstehen und Nutzern relevante Ergebnisse zu präsentieren. Zu diesen Ergebnissen gehören neben den organischen Ergebnissen häufig auch hervorgehobene Snippets, etwa die neuesten KI-Übersichten, Abschnitte „Personen fragen auch“, verwandte Suchanfragen und Wissensdiagramme. Diese Elemente stellen Benutzern basierend auf ihren Abfragen zusammengefasste und verwandte Informationen bereit.
Google Search Data hat verschiedene Anwendungen:
Python ist eine vielseitige und robuste Sprache, die eine leistungsstarke HTTP-Handshake-Konfiguration zum Scrapen von Websites bietet, mit denen andere Sprachen möglicherweise Probleme haben oder die eine geringere Erfolgsquote haben. Da die Beliebtheit von KI-Modellen, die auf Web-Scraping-Daten trainiert werden, zunimmt, nimmt die Relevanz von Python für Web-Scraping-Themen innerhalb der Entwicklergemeinschaft weiter zu.
Außerdem können Anfänger, die Python als Web-Scraping-Fähigkeit erlernen möchten, es aufgrund seiner einfachen Syntax und Codeklarheit leicht verstehen. Darüber hinaus verfügt es über eine enorme Community-Unterstützung auf Plattformen wie Discord, Reddit usw., die Ihnen bei jedem Problem helfen kann.
Diese skalierbare Sprache zeichnet sich durch Web-Scraping-Leistung aus und bietet leistungsstarke Frameworks wie Scrapy, Requests und BeautifulSoup, was sie im Vergleich zu anderen Sprachen zu einer überlegenen Wahl für das Scraping von Google und anderen Websites macht.
In diesem Abschnitt lernen wir, ein einfaches Python-Skript zu erstellen, um die ersten 10 Google-Suchergebnisse abzurufen.
Um diesem Tutorial folgen zu können, müssen wir die folgenden Bibliotheken installieren:
Anfragen – Zum Abrufen von HTML-Daten aus der Google-Such-URL.
BeautifulSoup – Zur Verfeinerung von HTML-Daten in einem strukturierten Format.
Die Einrichtung ist einfach. Erstellen Sie eine Python-Datei und installieren Sie die erforderlichen Bibliotheken, um loszulegen.
Führen Sie die folgenden Befehle in Ihrem Projektordner aus:
touch scraper.py
Und dann installieren Sie die Bibliotheken.
pip install requests pip install beautifulsoup4
Wir sind mit der Einrichtung fertig und haben alles, was wir brauchen, um fortzufahren. Wir werden die Requests-Bibliothek in Python verwenden, um den rohen HTML-Code zu extrahieren, und BeautifulSoup, um ihn zu verfeinern und die gewünschten Informationen zu erhalten.
Aber was ist hier „gewünschte Information“?
Die gefilterten Daten würden diese Informationen enthalten:
Lassen Sie uns zuerst unsere installierten Bibliotheken in die Datei scraper.py importieren.
from bs4 import BeautifulSoup import requests
Dann stellen wir eine GET-Anfrage an die Ziel-URL, um die rohen HTML-Daten von Google abzurufen.
headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.361681276786'} url='https://www.google.com/search?q=python+tutorials&gl=us' response = requests.get(url,headers=headers) print(response.status_code)
Das Übergeben von Headern ist wichtig, damit der Scraper wie ein natürlicher Benutzer aussieht, der nur die Google-Suchseite besucht, um Informationen zu erhalten.
Der obige Code hilft Ihnen beim Abrufen der HTML-Daten aus dem Google-Suchlink. Wenn Sie den Statuscode 200 erhalten haben, bedeutet dies, dass die Anfrage erfolgreich war. Damit ist der erste Teil der Erstellung eines Scrapers für Google abgeschlossen.
Im nächsten Teil werden wir BeautifulSoup verwenden, um die erforderlichen Daten aus HTML abzurufen.
soup = BeautifulSoup(response.text, ‘html.parser’)
Dadurch wird ein BS4-Objekt erstellt, um die HTML-Antwort zu analysieren, und so können wir problemlos im HTML navigieren und jedes gewünschte Element und den darin enthaltenen Inhalt finden.
Um diesen HTML-Code zu analysieren, müssten wir zunächst die Google-Suchseite untersuchen, um zu prüfen, welches gemeinsame Muster im DOM-Speicherort der Suchergebnisse zu finden ist.
Nach einer Überprüfung haben wir herausgefunden, dass sich jedes Suchergebnis unter einem Div-Container mit der Klasse g befindet. Das heißt, wir müssen nur eine Schleife über jeden div-Container mit der g-Klasse laufen lassen, um die darin enthaltenen Informationen zu erhalten.
Bevor wir den Code schreiben, suchen wir den DOM-Speicherort für den Titel, die Beschreibung und den Link aus dem HTML.
Wenn Sie sich den Titel ansehen, werden Sie feststellen, dass er in einem h3-Tag enthalten ist. Auf dem Bild können wir auch erkennen, dass sich der Link im href-Attribut des Ankertags befindet.
Der angezeigte Link oder der Cite-Link befindet sich im Cite-Tag.
Und schließlich wird die Beschreibung in einem Div-Container mit der Klasse VwiC3b gespeichert.
Verpacken aller dieser Datenentitäten in einem einzigen Codeblock:
touch scraper.py
Wir haben ein organisches Ergebnisarray deklariert und dann alle Elemente mit der g-Klasse im HTML durchlaufen und die gesammelten Daten in das Array verschoben.
Durch die Ausführung dieses Codes erhalten Sie die gewünschten Ergebnisse, die Sie für verschiedene Zwecke verwenden können, einschließlich Rangverfolgung, Lead-Generierung und Optimierung der SEO der Website.
pip install requests pip install beautifulsoup4
So wird also ein einfaches Google Scraping-Skript erstellt.
Es gibt jedoch einen Haken. Dennoch können wir uns auf diese Methode nicht vollständig verlassen, da dies zu einer Sperrung unserer IP durch Google führen kann. Wenn wir Suchergebnisse in großem Maßstab durchsuchen wollen, benötigen wir ein riesiges Netzwerk von Premium- und Nicht-Premium-Proxys und fortschrittlichen Techniken, die dies ermöglichen. Hier kommen die SERP-APIs ins Spiel!
Eine andere Methode zum Scrapen von Google ist die Verwendung einer dedizierten SERP-API. Sie sind viel zuverlässiger und verhindern, dass Sie beim Schabevorgang blockiert werden.
Die Einrichtung für diesen Abschnitt wäre die gleiche, wir müssen uns lediglich bei ApiForSeo registrieren, um unseren API-Schlüssel zu erhalten, der uns Zugriff auf die SERP-API ermöglicht.
Nach der Aktivierung des Kontos werden Sie zum Dashboard weitergeleitet, wo Sie Ihren API-Schlüssel erhalten.
Sie können den Code auch aus dem Dashboard selbst kopieren.
Dann erstellen wir eine API-Anfrage für eine zufällige Abfrage, um Daten über die ApiForSeo SERP-API zu extrahieren.
from bs4 import BeautifulSoup import requests
Sie können auch jede andere Abfrage ausprobieren. Vergessen Sie nicht, Ihren API-Schlüssel in den Code einzugeben, sonst erhalten Sie einen 404-Fehler.
Wenn Sie diesen Code in Ihrem Terminal ausführen, erhalten Sie sofort Ergebnisse.
touch scraper.py
Die oben genannten Daten enthalten verschiedene Punkte, darunter Titel, Links, Snippets, Beschreibungen und Featured Snippets wie erweiterte Sitelinks. Sie erhalten über diese API auch erweiterte Funktionsausschnitte wie „People Also Ask For“, „Knowledge Graph“, „Antwortboxen“ usw.
Die Natur des Geschäfts entwickelt sich rasant weiter. Wenn Sie keinen Zugriff auf Daten über aktuelle Trends und Ihre Konkurrenten haben, laufen Sie Gefahr, hinter aufstrebende Unternehmen zurückzufallen, die bei jedem Schritt datengesteuerte strategische Entscheidungen treffen. Daher ist es für ein Unternehmen von entscheidender Bedeutung zu verstehen, was in seiner Umgebung geschieht, und Google kann hierfür eine der besten Datenquellen sein.
In diesem Tutorial haben wir gelernt, wie man Google-Suchergebnisse mit Python durchsucht. Wenn Sie diesen Blog hilfreich fanden, teilen Sie ihn bitte auf sozialen Medien und anderen Plattformen.
Vielen Dank!
Das obige ist der detaillierte Inhalt vonScrapen Sie die Google-Suchergebnisse mit Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!