Mit der kontinuierlichen Weiterentwicklung des Internets ist der Zugang zu Informationen immer bequemer geworden. Die enorme Menge an Informationen bereitet uns jedoch auch viele Probleme. Die effiziente Beschaffung der benötigten Informationen ist zu einer sehr wichtigen Aufgabe geworden. Bei der Automatisierung der Informationsbeschaffung werden häufig Webcrawler eingesetzt.
Webcrawler ist ein Programm, das automatisch Informationen aus dem Internet abruft und häufig für Aufgaben wie Suchmaschinen, Data Mining und Rohstoffpreisverfolgung verwendet wird. Der Webcrawler greift automatisch auf die angegebene Website oder Webseite zu und analysiert dann die HTML- oder XML-Daten, um die erforderlichen Informationen zu erhalten.
In diesem Artikel erfahren Sie heute, wie Sie einen einfachen Webcrawler mithilfe der PHP-Sprache erstellen. Bevor wir beginnen, müssen wir die Grundkenntnisse der PHP-Sprache und einige grundlegende Konzepte der Webentwicklung verstehen.
1. Holen Sie sich die HTML-Seite
Der erste Schritt des Webcrawlers besteht darin, die HTML-Seite abzurufen. Dieser Schritt kann mithilfe der in PHP integrierten Funktionen erreicht werden. Beispielsweise können wir die Funktion file_get_contents verwenden, um die HTML-Seite einer URL-Adresse abzurufen und sie in einer Variablen zu speichern. Der Code lautet wie folgt:
$url = "https://www.example.com/"; $html = file_get_contents($url);
Im obigen Code definieren wir eine $url-Variable zum Speichern der Ziel-URL Adresse, und verwenden Sie dann die Funktion file_get_contents, um die HTML-Seite der URL-Adresse abzurufen und sie in der Variablen $html zu speichern.
2. Analysieren Sie die HTML-Seite
Nachdem wir die HTML-Seite erhalten haben, müssen wir die erforderlichen Informationen daraus extrahieren. HTML-Seiten bestehen normalerweise aus Tags und Tag-Attributen. Daher können wir die in PHP integrierten DOM-Manipulationsfunktionen verwenden, um HTML-Seiten zu analysieren.
Bevor wir die DOM-Operationsfunktion verwenden, müssen wir die HTML-Seite in ein DOMDocument-Objekt laden. Der Code lautet wie folgt:
$dom = new DOMDocument(); $dom->loadHTML($html);
Im obigen Code haben wir ein leeres DOMDocument-Objekt erstellt und die Funktion „loadHTML“ verwendet, um den HTML-Code abzurufen Die Seite wird in das DOMDocument-Objekt geladen.
Als nächstes können wir die Tags in der HTML-Seite über das DOMDocument-Objekt abrufen. Der Code lautet wie folgt:
$tags = $dom->getElementsByTagName("tag_name");
Im obigen Code verwenden wir die Funktion getElementsByTagName, um die in der HTML-Seite angegebenen Tags abzurufen, zum Beispiel Alle Hyperlink-Tags abrufen:
$links = $dom->getElementsByTagName("a");
Alle Bild-Tags abrufen:
$imgs = $dom->getElementsByTagName("img");
Alle Absatz-Tags abrufen:
$paras = $dom->getElementsByTagName("p");
3. Tag-Attribute analysieren
Zusätzlich zum Abrufen des Tags selbst müssen wir auch die Attribute des Tags analysieren. Holen Sie sich beispielsweise das href-Attribut aller Hyperlinks:
foreach ($links as $link) { $href = $link->getAttribute("href"); // do something with $href }
Im obigen Code verwenden wir die Funktion getAttribute, um den angegebenen Attributwert des angegebenen Tags abzurufen und ihn dann in der Variablen $href zu speichern.
4. Unnötige Informationen filtern
Beim Parsen von HTML-Seiten stoßen wir möglicherweise auf einige nutzlose Informationen, wie z. B. Werbung, Navigationsleisten usw. Um die Interferenz dieser Informationen zu vermeiden, müssen wir einige Techniken verwenden, um nutzlose Informationen herauszufiltern.
Zu den häufig verwendeten Filtermethoden gehören:
Zum Beispiel können wir nur Text-Tags abrufen:
$texts = $dom->getElementsByTagName("text");
Mit CSS-Selektoren können Sie die erforderlichen Tags leicht finden Holen Sie sich beispielsweise alle Tags mit dem Klassennamen „Liste“:
$els = $dom->querySelectorAll(".list");
Sie können unnötige Informationen einfach durch Schlüsselwortfilterung löschen. Löschen Sie beispielsweise alle Tags, die das Schlüsselwort „Werbung“ enthalten. Tag:
foreach ($paras as $para) { if (strpos($para->nodeValue, "广告") !== false) { $para->parentNode->removeChild($para); } }
Im obigen Code verwenden wir die Funktion strpos, um festzustellen, ob der Textinhalt des Tags das Schlüsselwort „advertising“ enthält. Wenn dies der Fall ist, verwenden Sie die Funktion „removeChild“, um das Tag zu löschen.
5. Daten speichern
Abschließend müssen wir die erhaltenen Daten für die spätere Verarbeitung speichern. In der PHP-Sprache werden normalerweise Arrays oder Strings zum Speichern von Daten verwendet.
Zum Beispiel können wir alle Hyperlinks in einem Array speichern:
$links_arr = array(); foreach ($links as $link) { $href = $link->getAttribute("href"); array_push($links_arr, $href); }
Im obigen Code verwenden wir die Funktion array_push, um das href-Attribut jedes Hyperlinks im Array $links_arr zu speichern.
6. Zusammenfassung
Durch die Einleitung dieses Artikels haben wir gelernt, wie man mit der PHP-Sprache einen einfachen Webcrawler erstellt. In praktischen Anwendungen müssen wir die Implementierung von Crawlern basierend auf unterschiedlichen Anforderungen optimieren, z. B. das Hinzufügen eines Wiederholungsmechanismus, die Verwendung von Proxy-IP usw. Ich hoffe, dass die Leser durch die Einführung dieses Artikels die Implementierungsprinzipien von Webcrawlern besser verstehen und problemlos ihre eigenen Webcrawler-Programme implementieren können.
Das obige ist der detaillierte Inhalt vonErstellen Sie einen einfachen Webcrawler mit PHP. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!