À l’ère numérique d’aujourd’hui, l’exploration des données d’Internet est devenue un besoin courant. Pour la collecte et l’analyse de données à grande échelle, l’utilisation de robots d’exploration automatisés est indispensable. Selenium est un outil largement utilisé pour les tests et l'automatisation Web, tandis que PHP est un langage de programmation Web populaire. Dans cet article, nous expliquerons comment utiliser PHP et Selenium pour implémenter des robots d'exploration automatisés et explorer les données requises.
1. Installez Selenium et WebDriver
Avant d'utiliser Selenium, vous devez télécharger Selenium. Il peut être installé via :
composer require php-webdriver/webdriver
De cette façon, vous pouvez télécharger avec succès le pilote Web et l'utiliser dans votre code. Ensuite, nous devons installer le pilote Web du navigateur, tel que le pilote Web Chrome, afin que le programme puisse l'appeler. Vous pouvez télécharger la version correspondante de webdriver depuis le site officiel de Chrome.
2. Utilisation de base de Selenium
Après avoir installé Selenium et webdriver, nous pouvons l'utiliser pour faire fonctionner automatiquement le navigateur. Voici un exemple de code simple :
use FacebookWebDriverRemoteRemoteWebDriver; use FacebookWebDriverWebDriverBy; $driver = RemoteWebDriver::create('http://localhost:9515', DesiredCapabilities::chrome()); $driver->get('http://www.google.com'); $element = $driver->findElement(WebDriverBy::name('q')); $element->sendKeys('Selenium'); $element->submit(); echo $driver->getTitle();
Cet extrait de code crée d'abord un objet Webdriver distant pour se connecter au navigateur Chrome local. Il ouvre ensuite Google, saisit « Selenium » et effectue une recherche. Enfin, le titre de la page du navigateur est affiché.
3. Utilisez Selenium pour l'exploration
Avec les connaissances de base de Selenium, nous pouvons commencer à l'utiliser pour créer un robot d'exploration automatisé. Ce qui suit est un exemple de code simple qui peut explorer tous les liens d'une page Web spécifiée :
use FacebookWebDriverRemoteRemoteWebDriver; use FacebookWebDriverWebDriverBy; $driver = RemoteWebDriver::create('http://localhost:9515', DesiredCapabilities::chrome()); $driver->get('https://www.example.com'); $links = $driver->findElements(WebDriverBy::tagName('a')); foreach ($links as $link) { $url = $link->getAttribute('href'); echo $url . "
";
}
Cet extrait de code utilise Selenium pour visiter un site Web et obtenir tous les liens de ce site Web. En parcourant chaque lien, et appelez la fonction getAttribute('href') pour obtenir la valeur de l'attribut href, et enfin afficher tous les liens trouvés
4. Implémentez un robot d'exploration automatisé avec PHP
L'exemple de code ci-dessus utilise le code Selenium implémenté en PHP. et PHP, nous pouvons implémenter un robot d'exploration automatisé complet. Voici un exemple de code qui utilise la technologie de pagination pour explorer les 10 premières pages des résultats de recherche Baidu :
use FacebookWebDriverRemoteRemoteWebDriver; use FacebookWebDriverWebDriverBy; $driver = RemoteWebDriver::create('http://localhost:9515', DesiredCapabilities::chrome()); $driver->get('https://www.baidu.com/s?wd=php'); $pageNumber = 10; for ($i = 1; $i <= $pageNumber; $i++) { echo "page {$i}
";
$links = $driver->findElements(WebDriverBy::xpath('//div[@class="result c-container "]//h3[@class="t"]/a')); foreach ($links as $link) { $url = $link->getAttribute('href'); echo $url . "
";
} $nextPageElement = $driver->findElement(WebDriverBy::xpath('//a[@class="n" and contains(text(),"下一页>")]')); $driver->executeScript("arguments[0].scrollIntoView();", [$nextPageElement]); $nextPageElement->click(); }
L'extrait de code ci-dessus s'ouvre en premier. La page des résultats de recherche Baidu, parcourt ensuite tous les résultats de recherche sur chaque page et affiche l'adresse du lien de chaque résultat de recherche. Après avoir parcouru une page, il défilera jusqu'au bas de la page et cliquera sur le bouton Suivant sur une page pour continuer. explorer plus de liens.
Résumé
Créer des robots d'exploration automatisés à l'aide de Selenium et PHP est un moyen très efficace. Selenium fournit de nombreuses fonctionnalités de base requises pour créer des robots d'exploration automatisés, tandis que PHP fournit un moyen rapide, simple et pratique d'implémenter des robots automatisés. robots d’exploration. En maîtrisant ces techniques, nous pouvons mieux utiliser les robots d’exploration automatisés pour collecter les données dont nous avons besoin rapidement et efficacement.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!