Heim Backend-Entwicklung PHP-Tutorial Erstellen Sie einen schnellen, effizienten Webcrawler: Beispiel für PHP und Selenium

Erstellen Sie einen schnellen, effizienten Webcrawler: Beispiel für PHP und Selenium

Jun 15, 2023 pm 04:10 PM
网络爬虫 php编程 selenium操作

Mit der kontinuierlichen Entwicklung des Internets ist das Crawlen von Daten für viele Menschen zu einer wesentlichen Fähigkeit geworden. Webcrawler sind eines der wichtigen Tools für das Datencrawlen.

Webcrawler können automatisch auf Websites zugreifen, Inhalte abrufen, Seiten analysieren und erforderliche Daten extrahieren. Unter anderem ist Selenium ein hervorragendes Tool zum Testen der Netzwerkautomatisierung, das reale Benutzervorgänge simulieren kann und beim Erstellen von Webcrawlern sehr hilfreich ist.

In diesem Artikel erfahren Sie, wie Sie mit PHP und Selenium einen schnellen und effizienten Webcrawler erstellen. Dazu müssen wir uns einige Grundkenntnisse aneignen.

1. Installationsumgebung

Bevor Sie beginnen, müssen Sie PHP und Selenium installieren.

1. PHP installieren

In einer Windows-Umgebung können Sie das XAMPP- oder WAMP-Softwarepaket herunterladen und installieren, und Mac-Benutzer können das MAMP-Softwarepaket installieren.

In einer Linux-Umgebung kann PHP über die Befehlszeile installiert werden. Auf einem Ubuntu-System kann es beispielsweise über den folgenden Befehl installiert werden:

sudo apt-get install php7.0

Bei der Installation ist Folgendes zu beachten PHP, Sie müssen bestätigen, dass es einige notwendige Erweiterungen installiert hat, zum Beispiel: php-curl. Sie können überprüfen, ob die Erweiterung installiert wurde, indem Sie den folgenden Befehl ausführen:

php -m |. Wenn keine Curl-Erweiterung vorhanden ist, müssen Sie sie manuell installieren.

2. Installieren Sie Selenium

Bevor Sie Selenium installieren, müssen Sie die Java Runtime Environment (JRE) installieren.

Sie können die Selenium Server Standalone Edition von der offiziellen Website von Selenium herunterladen (https://www.selenium.dev/downloads/).

Sie können den folgenden Befehl verwenden, um den Selenium-Server zu starten:

java -jar selenium-server-standalone-3.xx.x.jar

2. Erstellen Sie einen Webcrawler mit Selenium und PHP

Bevor Sie mit dem Erstellen beginnen Als Webcrawler müssen Sie einige grundlegende Konzepte kennen:

WebDriver
  1. WebDriver ist eine Kernkomponente in Selenium und kann zur Steuerung des Verhaltens des Browsers verwendet werden. Mit WebDriver können wir den Browser automatisch öffnen und schließen und das Bedienverhalten des Benutzers simulieren.

Locator
  1. Locator wird zum Auffinden von Elementen auf HTML-Seiten verwendet. Zu den häufig verwendeten Positionierungsmethoden in Selenium gehören ID, Name, Klasse, Tagname, CSS, XPath usw.

Action
  1. Action bezieht sich auf bestimmte Benutzeraktionen im Browser, wie z. B. Klicken, Texteingabe, Bewegen der Maus usw.

In diesem Beispiel erstellen wir einen Webcrawler mit dem automatisierten Testtool Selenium WebDriver und der Programmiersprache PHP. Am Beispiel von Baidu (https://www.baidu.com) suchen wir nach Schlüsselwörtern und crawlen die Links der Suchergebnisse.

Zuerst müssen Sie Selenium WebDriver und PHP WebDriver mit Composer in Ihrem PHP-Projekt installieren.

Composer konfigurieren
  1. Bevor Sie ein PHP-Projekt erstellen, müssen Sie Composer (https://getcomposer.org/) installieren und über die Befehlszeile ein neues PHP-Projekt erstellen.

Im Projektordner können Sie den folgenden Befehl verwenden, um Selenium WebDriver und PHP WebDriver zu installieren:

composer require facebook/webdriver

Schreiben Sie den Code
  1. Erstellen Sie eine neue Datei crawl.php im Projektordner und bearbeiten Sie sie Der Code lautet wie folgt:
<?php
require_once('vendor/autoload.php');

use FacebookWebDriverRemoteDesiredCapabilities;
use FacebookWebDriverRemoteRemoteWebDriver;
use FacebookWebDriverWebDriverBy;
use FacebookWebDriverWebDriverKeys;

// 设置WebDriver
$host = 'http://localhost:4444/wd/hub';
$capabilities = DesiredCapabilities::chrome();
$driver = RemoteWebDriver::create($host, $capabilities, 5000);

// 打开百度
$driver->get('https://www.baidu.com');

// 搜索关键字
$search_box = $driver->findElement(WebDriverBy::id('kw'));
$search_box->sendKeys('Selenium');
$search_box->sendKeys(WebDriverKeys::ENTER);

// 等待页面加载完成
sleep(5);

// 抓取搜索结果链接
$elements = $driver->findElements(WebDriverBy::xpath('//div/h3/a'));
foreach ($elements as $element) {
    echo $element->getAttribute('href')."
";
}

// 关闭浏览器
$driver->quit();
?>
Nach dem Login kopieren

Zunächst müssen wir den Webdriver einrichten, einschließlich des verwendeten Browsers (hier wird der Chrome-Browser verwendet) und der Adresse des WebDriver-Dienstes.

Als nächstes verwenden Sie WebDriver, um die Baidu-Homepage zu öffnen. Wir finden das Baidu-Suchfeld anhand der ID, geben das Schlüsselwort Selenium ein und drücken die Eingabetaste, um die Suche abzusenden. Warten Sie anschließend, bis die Seite geladen ist und Links zu allen Suchergebnissen angezeigt werden.

Schließen Sie abschließend den Browser.

Führen Sie den Code aus
  1. Führen Sie den folgenden Befehl in der Befehlszeile aus, um crawl.php auszuführen und den Suchergebnislink abzurufen:

php crawl.php

3. Zusammenfassung

Durch die Einleitung dieses Artikels, Sie kann lernen, wie man mit PHP und Selenium einen einfachen Webcrawler erstellt. Mit Selenium WebDriver lassen sich Benutzervorgänge simulieren und so bessere Ergebnisse beim Webcrawlen erzielen. In praktischen Anwendungen können wir verschiedene Positionierungsmethoden anwenden und das Betriebsverhalten nach Bedarf anpassen, um eine genauere und effizientere Datendurchforstung zu erreichen.

Hinweis: Dieses Beispiel dient nur als Lernreferenz und ist für illegale Zwecke verboten.

Das obige ist der detaillierte Inhalt vonErstellen Sie einen schnellen, effizienten Webcrawler: Beispiel für PHP und Selenium. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

PHP formatiert Zeilen in CSV und schreibt Dateizeiger PHP formatiert Zeilen in CSV und schreibt Dateizeiger Mar 22, 2024 am 09:00 AM

In diesem Artikel wird ausführlich erläutert, wie PHP Zeilen in CSV formatiert und Dateizeiger schreibt. Ich hoffe, dass Sie nach dem Lesen dieses Artikels etwas daraus lernen können. Zeilen in CSV formatieren und in den Dateizeiger schreiben Schritt 1: Dateizeiger öffnen $file=fopen("path/to/file.csv","w"); in CSV-Strings umwandeln. Die Funktion akzeptiert die folgenden Parameter: $file: Dateizeiger $fields: CSV-Felder als Array $delimiter: Feldtrennzeichen (optional) $enclosure: Feldanführungszeichen (

PHP ändert die aktuelle umask PHP ändert die aktuelle umask Mar 22, 2024 am 08:41 AM

In diesem Artikel wird das Ändern der aktuellen umask in PHP ausführlich erläutert. Der Herausgeber hält dies für recht praktisch, daher teile ich es Ihnen als Referenz mit. Ich hoffe, dass Sie nach dem Lesen dieses Artikels etwas gewinnen können. Überblick über die Änderung der aktuellen umask durch PHP umask ist eine PHP-Funktion, mit der die Standarddateiberechtigungen für neu erstellte Dateien und Verzeichnisse festgelegt werden. Es akzeptiert ein Argument, eine Oktalzahl, die die Blockierungsberechtigung darstellt. Um beispielsweise die Schreibberechtigung für neu erstellte Dateien zu verhindern, würden Sie 002 verwenden. Methoden zum Ändern von umask Es gibt zwei Möglichkeiten, die aktuelle umask in PHP zu ändern: Verwendung der Funktion umask(): Die Funktion umask() ändert direkt die aktuelle umask. Seine Syntax ist: intumas

PHP erstellt eine Datei mit einem eindeutigen Dateinamen PHP erstellt eine Datei mit einem eindeutigen Dateinamen Mar 21, 2024 am 11:22 AM

In diesem Artikel wird ausführlich erklärt, wie man in PHP eine Datei mit einem eindeutigen Dateinamen erstellt. Der Herausgeber hält dies für recht praktisch, daher teile ich es Ihnen als Referenz mit und hoffe, dass Sie nach dem Lesen dieses Artikels etwas gewinnen können. Erstellen von Dateien mit eindeutigen Dateinamen in PHP Einführung Das Erstellen von Dateien mit eindeutigen Dateinamen in PHP ist für die Organisation und Verwaltung Ihres Dateisystems unerlässlich. Eindeutige Dateinamen stellen sicher, dass vorhandene Dateien nicht überschrieben werden und erleichtern das Auffinden und Abrufen bestimmter Dateien. In diesem Handbuch werden verschiedene Möglichkeiten zum Generieren eindeutiger Dateinamen in PHP behandelt. Methode 1: Verwenden Sie die Funktion uniqid(). Die Funktion uniqid() generiert eine eindeutige Zeichenfolge basierend auf der aktuellen Zeit und den Mikrosekunden. Diese Zeichenfolge kann als Grundlage für den Dateinamen verwendet werden.

PHP berechnet den MD5-Hash der Datei PHP berechnet den MD5-Hash der Datei Mar 21, 2024 pm 01:42 PM

In diesem Artikel wird ausführlich erläutert, wie PHP den MD5-Hash von Dateien berechnet. Der Herausgeber hält dies für recht praktisch, daher teile ich es Ihnen als Referenz mit. Ich hoffe, dass Sie nach dem Lesen dieses Artikels etwas gewinnen können. PHP berechnet den MD5-Hash einer Datei. MD5 (MessageDigest5) ist ein Einweg-Verschlüsselungsalgorithmus, der Nachrichten beliebiger Länge in einen 128-Bit-Hashwert fester Länge umwandelt. Es wird häufig verwendet, um die Dateiintegrität sicherzustellen, die Datenauthentizität zu überprüfen und digitale Signaturen zu erstellen. Berechnen des MD5-Hash einer Datei in PHP PHP bietet mehrere Methoden zum Berechnen des MD5-Hash einer Datei: Verwenden Sie die Funktion md5_file(). Die Funktion md5_file() berechnet direkt den MD5-Hash-Wert der Datei und gibt einen 32-stelligen Wert zurück

PHP schneidet die Datei auf die angegebene Länge ab PHP schneidet die Datei auf die angegebene Länge ab Mar 21, 2024 am 11:42 AM

In diesem Artikel wird ausführlich erläutert, wie PHP Dateien auf eine bestimmte Länge kürzt. Der Herausgeber hält dies für recht praktisch, daher teile ich es Ihnen als Referenz mit. Ich hoffe, dass Sie nach dem Lesen dieses Artikels etwas gewinnen können. Einführung in die PHP-Dateikürzung Die Funktion file_put_contents() in PHP kann verwendet werden, um Dateien auf eine bestimmte Länge zu kürzen. Unter Abschneiden versteht man das Entfernen eines Teils des Endes einer Datei, wodurch die Dateilänge verkürzt wird. Syntax file_put_contents($filename,$data,SEEK_SET,$offset);$filename: der Dateipfad, der gekürzt werden soll. $data: Leerer String, der in die Datei geschrieben werden soll. SEEK_SET: Wird als Anfang der Datei bezeichnet

PHP gibt ein Array mit umgedrehten Schlüsseln zurück PHP gibt ein Array mit umgedrehten Schlüsseln zurück Mar 21, 2024 pm 02:10 PM

In diesem Artikel wird ausführlich erläutert, wie PHP nach dem Umdrehen eines Schlüsselwerts ein Array zurückgibt. Der Herausgeber hält dies für recht praktisch, daher teile ich es Ihnen als Referenz mit. Ich hoffe, dass Sie nach dem Lesen dieses Artikels etwas gewinnen können. PHP-Schlüsselwert-Flip Der Array-Schlüsselwert-Flip ist eine Operation für ein Array, bei der die Schlüssel und Werte im Array ausgetauscht werden, um ein neues Array mit dem ursprünglichen Schlüssel als Wert und dem ursprünglichen Wert als Schlüssel zu generieren. Implementierungsmethode In PHP können Sie das Schlüsselwert-Umdrehen eines Arrays mit den folgenden Methoden durchführen: array_flip()-Funktion: Die array_flip()-Funktion wird speziell für Schlüsselwert-Umdrehungsvorgänge verwendet. Es erhält ein Array als Argument und gibt ein neues Array mit vertauschten Schlüsseln und Werten zurück. $original_array=[

PHP gibt die numerische Kodierung der Fehlermeldung in der vorherigen MySQL-Operation zurück PHP gibt die numerische Kodierung der Fehlermeldung in der vorherigen MySQL-Operation zurück Mar 22, 2024 pm 12:31 PM

In diesem Artikel wird die digitale Kodierung der von PHP im vorherigen MySQL-Vorgang zurückgegebenen Fehlermeldung ausführlich erläutert. Der Herausgeber hält dies für recht praktisch, daher teile ich es Ihnen als Referenz mit. Ich hoffe, dass Sie nach dem Lesen dieses Artikels etwas gewinnen können . . Verwenden von PHP zum Zurückgeben von MySQL-Fehlerinformationen Einführung in die numerische Kodierung Bei der Verarbeitung von MySQL-Abfragen können Fehler auftreten. Um diese Fehler effektiv behandeln zu können, ist es wichtig, die numerische Kodierung von Fehlermeldungen zu verstehen. Dieser Artikel führt Sie durch die Verwendung von PHP, um die numerische Kodierung von MySQL-Fehlermeldungen zu erhalten. Methode zum Erhalten der numerischen Kodierung von Fehlerinformationen 1. mysqli_errno() Die Funktion mysqli_errno() gibt die aktuellste Fehlernummer der aktuellen MySQL-Verbindung zurück. Die Syntax lautet wie folgt: $erro

PHP ermittelt, ob ein angegebener Schlüssel in einem Array vorhanden ist PHP ermittelt, ob ein angegebener Schlüssel in einem Array vorhanden ist Mar 21, 2024 pm 09:21 PM

In diesem Artikel wird ausführlich erläutert, wie PHP ermittelt, ob ein bestimmter Schlüssel in einem Array vorhanden ist. Der Herausgeber hält dies für sehr praktisch, daher teile ich es Ihnen als Referenz mit und hoffe, dass Sie nach dem Lesen dieses Artikels etwas gewinnen können. PHP ermittelt, ob ein angegebener Schlüssel in einem Array vorhanden ist: In PHP gibt es viele Möglichkeiten, festzustellen, ob ein angegebener Schlüssel in einem Array vorhanden ist: 1. Verwenden Sie die Funktion isset(): isset($array["key"]) Diese Funktion gibt einen booleschen Wert zurück, true, wenn der angegebene Schlüssel vorhanden ist, andernfalls false. 2. Verwenden Sie die Funktion array_key_exists(): array_key_exists("key",$arr

See all articles