Maison développement back-end tutoriel php Introduction au framework de robots d'exploration basé sur PHP et explication détaillée des exemples d'application

Introduction au framework de robots d'exploration basé sur PHP et explication détaillée des exemples d'application

Jun 14, 2023 pm 03:58 PM
php 爬虫框架 应用实例

Avec la croissance explosive des informations sur Internet, une grande quantité de données est stockée sur les sites Web, ce qui revêt une valeur importante pour de nombreux utilisateurs. Par conséquent, la technologie des robots d’exploration est progressivement devenue un moyen puissant d’utiliser les données Internet.

Cet article présente un framework de crawler basé sur le langage PHP : Guzzle et Goutte. Guzzle est un client HTTP développé pour PHP qui peut être utilisé pour envoyer des requêtes HTTP et interagir avec les ressources REST. Goutte est son complément. Il s'agit d'un framework de robot d'exploration Web basé sur Guzzle qui peut facilement obtenir du contenu Web et effectuer une extraction et une analyse de données.

Tout d'abord, nous devons installer Guzzle et Goutte en PHP. Il peut être installé via Composer. La commande spécifique est la suivante :

composer require guzzlehttp/guzzle
composer require fabpot/goutte
Copier après la connexion

Une fois l'installation terminée, apprenons d'abord comment utiliser Guzzle. Nous pouvons utiliser le code suivant pour envoyer une requête HTTP GET et obtenir le contenu de la réponse :

<?php
use GuzzleHttpClient;

$client = new Client();
$response = $client->get('https://www.example.com');
echo $response->getBody();
Copier après la connexion

Ce code crée d'abord un objet GuzzleClient, puis utilise la méthode get() pour envoyer une requête GET à l'URL spécifiée et obtenir la réponse. contenu. . Appelez la méthode getBody() pour obtenir le contenu du corps de la réponse.

Goutte est un framework de robot d'exploration développé sur la base de Guzzle, et son utilisation est également très simple. Voici un exemple simple d'utilisation de Goutte :

<?php
use GoutteClient;

$client = new Client();
$crawler = $client->request('GET', 'https://www.example.com');
$crawler->filter('h1')->each(function ($node) {
    echo $node->text() . "
";
});
Copier après la connexion

Ce code utilise Goutte pour créer un objet Client et envoie une requête GET à l'URL spécifiée, puis obtient le corps de la réponse et l'analyse dans un objet DOM. $crawler->filter('h1') est un filtre qui spécifie tous les nœuds de balise h1 de la page, puis il appelle la méthode each() Pour chaque nœud de balise h1, la fonction anonyme spécifiée sera exécutée, où. $node est l'objet nœud actuel et sa méthode text() peut obtenir le contenu textuel du nœud.

Jetons un coup d'œil à un exemple plus complet ci-dessous, qui montre comment utiliser Goutte pour explorer les questions et réponses sur Zhihu, et enregistrer le nom d'utilisateur, le contenu de la réponse, le nombre de likes et le temps de réponse dans un fichier CSV :

<?php
use GoutteClient;

$client = new Client();
$crawler = $client->request('GET', 'https://www.zhihu.com/question/21774949');
$fp = fopen('output.csv', 'w');
fputcsv($fp, ['User', 'Content', 'Votes', 'Time']);
$crawler->filter('.List-item')->each(function ($node) use ($fp) {
    $user = $node->filter('.AuthorInfo .Popover')->text();
    $content = $node->filter('.RichText')->text();
    $votes = $node->filter('.Voters')->text();
    $time = $node->filter('.ContentItem-time')->text();
    fputcsv($fp, [$user, $content, $votes, $time]);
});
fclose($fp);
Copier après la connexion

Ce code explore d'abord la page portant l'ID de question 21774949 sur Zhihu, puis utilise un descripteur de fichier pour écrire la ligne d'en-tête CSV dans le fichier output.csv. Ensuite, utilisez la méthode filter() pour rechercher tous les nœuds de questions et réponses sur la page, puis exécutez une fonction anonyme sur chaque nœud. Dans la fonction anonyme, utilisez la méthode filter() pour trouver le nom de chaque utilisateur, le contenu de la réponse, le nombre de likes et le temps de réponse, et utilisez la méthode fputcsv() pour écrire ces quatre champs dans le fichier. Fermez enfin le descripteur de fichier.

En résumé, il est très simple d'utiliser Guzzle et Goutte pour créer un framework de robots d'exploration, et il est très flexible et évolutif et peut être appliqué à divers scénarios, y compris, mais sans s'y limiter, l'exploration de données, l'optimisation du référencement et d'autres domaines. Cependant, veuillez noter que tout robot d'exploration doit se conformer au fichier robots.txt du site Web pour éviter d'imposer une charge excessive au site Web cible et de porter atteinte à la vie privée des utilisateurs.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Système de fusion, expliqué
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1669
14
Tutoriel PHP
1273
29
Tutoriel C#
1256
24
PHP: un langage clé pour le développement Web PHP: un langage clé pour le développement Web Apr 13, 2025 am 12:08 AM

PHP est un langage de script largement utilisé du côté du serveur, particulièrement adapté au développement Web. 1.Php peut intégrer HTML, traiter les demandes et réponses HTTP et prend en charge une variété de bases de données. 2.PHP est utilisé pour générer du contenu Web dynamique, des données de formulaire de traitement, des bases de données d'accès, etc., avec un support communautaire solide et des ressources open source. 3. PHP est une langue interprétée, et le processus d'exécution comprend l'analyse lexicale, l'analyse grammaticale, la compilation et l'exécution. 4.PHP peut être combiné avec MySQL pour les applications avancées telles que les systèmes d'enregistrement des utilisateurs. 5. Lors du débogage de PHP, vous pouvez utiliser des fonctions telles que error_reportting () et var_dump (). 6. Optimiser le code PHP pour utiliser les mécanismes de mise en cache, optimiser les requêtes de base de données et utiliser des fonctions intégrées. 7

PHP vs Python: comprendre les différences PHP vs Python: comprendre les différences Apr 11, 2025 am 12:15 AM

PHP et Python ont chacun leurs propres avantages, et le choix doit être basé sur les exigences du projet. 1.Php convient au développement Web, avec une syntaxe simple et une efficacité d'exécution élevée. 2. Python convient à la science des données et à l'apprentissage automatique, avec une syntaxe concise et des bibliothèques riches.

PHP et Python: comparaison de deux langages de programmation populaires PHP et Python: comparaison de deux langages de programmation populaires Apr 14, 2025 am 12:13 AM

PHP et Python ont chacun leurs propres avantages et choisissent en fonction des exigences du projet. 1.Php convient au développement Web, en particulier pour le développement rapide et la maintenance des sites Web. 2. Python convient à la science des données, à l'apprentissage automatique et à l'intelligence artificielle, avec syntaxe concise et adaptée aux débutants.

PHP en action: Exemples et applications du monde réel PHP en action: Exemples et applications du monde réel Apr 14, 2025 am 12:19 AM

PHP est largement utilisé dans le commerce électronique, les systèmes de gestion de contenu et le développement d'API. 1) E-commerce: Utilisé pour la fonction de panier et le traitement des paiements. 2) Système de gestion du contenu: utilisé pour la génération de contenu dynamique et la gestion des utilisateurs. 3) Développement des API: Utilisé pour le développement de l'API RESTful et la sécurité de l'API. Grâce à l'optimisation des performances et aux meilleures pratiques, l'efficacité et la maintenabilité des applications PHP sont améliorées.

La pertinence durable de PHP: est-elle toujours vivante? La pertinence durable de PHP: est-elle toujours vivante? Apr 14, 2025 am 12:12 AM

PHP est toujours dynamique et occupe toujours une position importante dans le domaine de la programmation moderne. 1) La simplicité de PHP et le soutien communautaire puissant le rendent largement utilisé dans le développement Web; 2) sa flexibilité et sa stabilité le rendent exceptionnelle dans la gestion des formulaires Web, des opérations de base de données et du traitement de fichiers; 3) PHP évolue et optimise constamment, adapté aux débutants et aux développeurs expérimentés.

PHP et Python: différents paradigmes expliqués PHP et Python: différents paradigmes expliqués Apr 18, 2025 am 12:26 AM

PHP est principalement la programmation procédurale, mais prend également en charge la programmation orientée objet (POO); Python prend en charge une variété de paradigmes, y compris la POO, la programmation fonctionnelle et procédurale. PHP convient au développement Web, et Python convient à une variété d'applications telles que l'analyse des données et l'apprentissage automatique.

PHP vs autres langues: une comparaison PHP vs autres langues: une comparaison Apr 13, 2025 am 12:19 AM

PHP convient au développement Web, en particulier dans le développement rapide et le traitement du contenu dynamique, mais n'est pas bon dans les applications de la science des données et de l'entreprise. Par rapport à Python, PHP présente plus d'avantages dans le développement Web, mais n'est pas aussi bon que Python dans le domaine de la science des données; Par rapport à Java, PHP fonctionne moins bien dans les applications au niveau de l'entreprise, mais est plus flexible dans le développement Web; Par rapport à JavaScript, PHP est plus concis dans le développement back-end, mais n'est pas aussi bon que JavaScript dans le développement frontal.

PHP et Python: exemples de code et comparaison PHP et Python: exemples de code et comparaison Apr 15, 2025 am 12:07 AM

PHP et Python ont leurs propres avantages et inconvénients, et le choix dépend des besoins du projet et des préférences personnelles. 1.Php convient au développement rapide et à la maintenance des applications Web à grande échelle. 2. Python domine le domaine de la science des données et de l'apprentissage automatique.

See all articles