Mit der kontinuierlichen Entwicklung des Internets ist das Crawlen von Daten für viele Menschen zu einer wesentlichen Fähigkeit geworden. Webcrawler sind eines der wichtigen Tools für das Datencrawlen.
Webcrawler können automatisch auf Websites zugreifen, Inhalte abrufen, Seiten analysieren und erforderliche Daten extrahieren. Unter anderem ist Selenium ein hervorragendes Tool zum Testen der Netzwerkautomatisierung, das reale Benutzervorgänge simulieren kann und beim Erstellen von Webcrawlern sehr hilfreich ist.
In diesem Artikel erfahren Sie, wie Sie mit PHP und Selenium einen schnellen und effizienten Webcrawler erstellen. Dazu müssen wir uns einige Grundkenntnisse aneignen.
1. Installationsumgebung
Bevor Sie beginnen, müssen Sie PHP und Selenium installieren.
1. PHP installieren
In einer Windows-Umgebung können Sie das XAMPP- oder WAMP-Softwarepaket herunterladen und installieren, und Mac-Benutzer können das MAMP-Softwarepaket installieren.
In einer Linux-Umgebung kann PHP über die Befehlszeile installiert werden. Auf einem Ubuntu-System kann es beispielsweise über den folgenden Befehl installiert werden:
sudo apt-get install php7.0
Bei der Installation ist Folgendes zu beachten PHP, Sie müssen bestätigen, dass es einige notwendige Erweiterungen installiert hat, zum Beispiel: php-curl. Sie können überprüfen, ob die Erweiterung installiert wurde, indem Sie den folgenden Befehl ausführen:
php -m |. Wenn keine Curl-Erweiterung vorhanden ist, müssen Sie sie manuell installieren.
2. Installieren Sie Selenium
Bevor Sie Selenium installieren, müssen Sie die Java Runtime Environment (JRE) installieren.
Sie können die Selenium Server Standalone Edition von der offiziellen Website von Selenium herunterladen (https://www.selenium.dev/downloads/).
Sie können den folgenden Befehl verwenden, um den Selenium-Server zu starten:
java -jar selenium-server-standalone-3.xx.x.jar
2. Erstellen Sie einen Webcrawler mit Selenium und PHP
Bevor Sie mit dem Erstellen beginnen Als Webcrawler müssen Sie einige grundlegende Konzepte kennen:
WebDriverIn diesem Beispiel erstellen wir einen Webcrawler mit dem automatisierten Testtool Selenium WebDriver und der Programmiersprache PHP. Am Beispiel von Baidu (https://www.baidu.com) suchen wir nach Schlüsselwörtern und crawlen die Links der Suchergebnisse.
Zuerst müssen Sie Selenium WebDriver und PHP WebDriver mit Composer in Ihrem PHP-Projekt installieren.
Composer konfigurierenIm Projektordner können Sie den folgenden Befehl verwenden, um Selenium WebDriver und PHP WebDriver zu installieren:
composer require facebook/webdriver
Schreiben Sie den Code<?php require_once('vendor/autoload.php'); use FacebookWebDriverRemoteDesiredCapabilities; use FacebookWebDriverRemoteRemoteWebDriver; use FacebookWebDriverWebDriverBy; use FacebookWebDriverWebDriverKeys; // 设置WebDriver $host = 'http://localhost:4444/wd/hub'; $capabilities = DesiredCapabilities::chrome(); $driver = RemoteWebDriver::create($host, $capabilities, 5000); // 打开百度 $driver->get('https://www.baidu.com'); // 搜索关键字 $search_box = $driver->findElement(WebDriverBy::id('kw')); $search_box->sendKeys('Selenium'); $search_box->sendKeys(WebDriverKeys::ENTER); // 等待页面加载完成 sleep(5); // 抓取搜索结果链接 $elements = $driver->findElements(WebDriverBy::xpath('//div/h3/a')); foreach ($elements as $element) { echo $element->getAttribute('href')." "; } // 关闭浏览器 $driver->quit(); ?>
Zunächst müssen wir den Webdriver einrichten, einschließlich des verwendeten Browsers (hier wird der Chrome-Browser verwendet) und der Adresse des WebDriver-Dienstes.
Als nächstes verwenden Sie WebDriver, um die Baidu-Homepage zu öffnen. Wir finden das Baidu-Suchfeld anhand der ID, geben das Schlüsselwort Selenium ein und drücken die Eingabetaste, um die Suche abzusenden. Warten Sie anschließend, bis die Seite geladen ist und Links zu allen Suchergebnissen angezeigt werden.
Schließen Sie abschließend den Browser.
Führen Sie den Code ausphp crawl.php
3. Zusammenfassung
Durch die Einleitung dieses Artikels, Sie kann lernen, wie man mit PHP und Selenium einen einfachen Webcrawler erstellt. Mit Selenium WebDriver lassen sich Benutzervorgänge simulieren und so bessere Ergebnisse beim Webcrawlen erzielen. In praktischen Anwendungen können wir verschiedene Positionierungsmethoden anwenden und das Betriebsverhalten nach Bedarf anpassen, um eine genauere und effizientere Datendurchforstung zu erreichen.
Hinweis: Dieses Beispiel dient nur als Lernreferenz und ist für illegale Zwecke verboten.
Das obige ist der detaillierte Inhalt vonErstellen Sie einen schnellen, effizienten Webcrawler: Beispiel für PHP und Selenium. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!