Maison développement back-end tutoriel php Partage pratique de l'utilisation de Swoole pour explorer des pages Web de manière asynchrone

Partage pratique de l'utilisation de Swoole pour explorer des pages Web de manière asynchrone

Dec 21, 2017 am 11:50 AM
swoole 异步

Les programmeurs PHP savent tous que les programmes écrits en PHP sont tous synchrones. Comment écrire un programme asynchrone en PHP La réponse est Swoole. Ici, nous prenons l'analyse du contenu Web comme exemple pour montrer comment utiliser Swoole pour écrire des programmes asynchrones.

Programme de synchronisation PHP

Avant d'écrire un programme asynchrone, ne vous inquiétez pas, utilisez d'abord PHP pour implémenter le programme de synchronisation.

<?php
/**
 * Class Crawler
 * Path: /Sync/Crawler.php
 */
class Crawler
{
    private $url;
    private $toVisit = [];
    public function __construct($url)
    {
        $this->url = $url;
    }
    public function visitOneDegree()
    {
        $this->loadPageUrls();
        $this->visitAll();
    }
    private function loadPageUrls()
    {
        $content = $this->visit($this->url);
        $pattern = &#39;#((http|ftp)://(\S*?\.\S*?))([\s)\[\]{},;"\&#39;:<]|\.\s|$)#i&#39;;
        preg_match_all($pattern, $content, $matched);
        foreach ($matched[0] as $url) {
            if (in_array($url, $this->toVisit)) {
                continue;
            }
            $this->toVisit[] = $url;
        }
    }
    private function visitAll()
    {
        foreach ($this->toVisit as $url) {
            $this->visit($url);
        }
    }
    private function visit($url)
    {
        return @file_get_contents($url);
    }
}
Copier après la connexion
<?php
/**
 * crawler.php
 */
require_once &#39;Sync/Crawler.php&#39;;
$start = microtime(true);
$url = &#39;http://www.swoole.com/&#39;;
$ins = new Crawler($url);
$ins->visitOneDegree();
$timeUsed = microtime(true) - $start;
echo "time used: " . $timeUsed;
/* output:
time used: 6.2610177993774
*/
Copier après la connexion

Une étude préliminaire sur la mise en œuvre par Swoole des robots d'exploration asynchrones

Référez-vous d'abord à la page officielle d'exploration asynchrone.
Exemple d'utilisation

Swoole\Async::dnsLookup("www.baidu.com", function ($domainName, $ip) {
    $cli = new swoole_http_client($ip, 80);
    $cli->setHeaders([
        &#39;Host&#39; => $domainName,
        "User-Agent" => &#39;Chrome/49.0.2587.3&#39;,
        &#39;Accept&#39; => &#39;text/html,application/xhtml+xml,application/xml&#39;,
        &#39;Accept-Encoding&#39; => &#39;gzip&#39;,
    ]);
    $cli->get(&#39;/index.html&#39;, function ($cli) {
        echo "Length: " . strlen($cli->body) . "\n";
        echo $cli->body;
    });
});
Copier après la connexion

Il semble qu'en modifiant légèrement le code synchrone file_get_contents, une implémentation asynchrone puisse être obtenue. Il semble que le succès soit facile.
Nous avons donc obtenu le code suivant :

<?php
/**
 * Class Crawler
 * Path: /Async/CrawlerV1.php
 */
class Crawler
{
    private $url;
    private $toVisit = [];
    private $loaded = false;
    public function __construct($url)
    {
        $this->url = $url;
    }
    public function visitOneDegree()
    {
        $this->visit($this->url, true);
        $retryCount = 3;
        do {
            sleep(1);
            $retryCount--;
        } while ($retryCount > 0 && $this->loaded == false);
        $this->visitAll();
    }
    private function loadPage($content)
    {
        $pattern = &#39;#((http|ftp)://(\S*?\.\S*?))([\s)\[\]{},;"\&#39;:<]|\.\s|$)#i&#39;;
        preg_match_all($pattern, $content, $matched);
        foreach ($matched[0] as $url) {
            if (in_array($url, $this->toVisit)) {
                continue;
            }
            $this->toVisit[] = $url;
        }
    }
    private function visitAll()
    {
        foreach ($this->toVisit as $url) {
            $this->visit($url);
        }
    }
    private function visit($url, $root = false)
    {
        $urlInfo = parse_url($url);
        Swoole\Async::dnsLookup($urlInfo[&#39;host&#39;], function ($domainName, $ip) use($urlInfo, $root) {
            $cli = new swoole_http_client($ip, 80);
            $cli->setHeaders([
                &#39;Host&#39; => $domainName,
                "User-Agent" => &#39;Chrome/49.0.2587.3&#39;,
                &#39;Accept&#39; => &#39;text/html,application/xhtml+xml,application/xml&#39;,
                &#39;Accept-Encoding&#39; => &#39;gzip&#39;,
            ]);
            $cli->get($urlInfo[&#39;path&#39;], function ($cli) use ($root) {
                if ($root) {
                    $this->loadPage($cli->body);
                    $this->loaded = true;
                }
            });
        });
    }
}
Copier après la connexion
<?php
/**
 * crawler.php
 */
require_once &#39;Async/CrawlerV1.php&#39;;
$start = microtime(true);
$url = &#39;http://www.swoole.com/&#39;;
$ins = new Crawler($url);
$ins->visitOneDegree();
$timeUsed = microtime(true) - $start;
echo "time used: " . $timeUsed;
/* output:
time used: 3.011773109436
*/
Copier après la connexion

Le résultat a duré 3 secondes. Faites attention à ma mise en œuvre. Après avoir lancé une demande d'exploration de la page d'accueil, j'interrogerai les résultats toutes les secondes, et cela se terminera après trois interrogations. Les 3 secondes ici semblent être la sortie provoquée par 3 sondages sans résultats.
Il semble que j’étais trop impatient et que je ne leur ai pas laissé suffisamment de temps de préparation. D'accord, modifions le nombre de sondages à 10 et voyons les résultats.

time used: 10.034232854843
Copier après la connexion

Vous savez ce que je ressens en ce moment.

Est-ce un problème de performances avec swoole ? Pourquoi n'y a-t-il aucun résultat après 10 secondes ? Est-ce parce que ma posture est mauvaise ? Le vieux Marx disait : « La pratique est le seul critère pour tester la vérité. » Il semble que nous devions le déboguer pour en découvrir la raison.

Donc, j'ai ajouté des points d'arrêt à

$this->visitAll();
Copier après la connexion

et

$this->loadPage($cli->body);
Copier après la connexion

. Enfin, j'ai trouvé que visitAll() est toujours exécuté en premier, puis loadPage() est exécuté.

Après y avoir réfléchi un moment, je comprends probablement la raison. Quelle en est la raison ?

Le modèle dynamique asynchrone auquel je m'attendais est comme ceci :

Partage pratique de lutilisation de Swoole pour explorer des pages Web de manière asynchrone

Cependant, le scénario réel n'est pas comme ça. Grâce au débogage, j'ai à peu près compris que le modèle réel devrait ressembler à ceci :


Partage pratique de lutilisation de Swoole pour explorer des pages Web de manière asynchrone

En d'autres termes, peu importe la façon dont j'augmente le nombre de tentatives, les données ne seront jamais prêtes. Les données ne commenceront à s'exécuter qu'une fois la fonction actuelle prête. L'asynchrone ici ne fait que réduire le temps de préparation de la connexion.
Ensuite, la question est de savoir comment faire en sorte que le programme exécute les fonctions que j'attends après avoir préparé les données.
Voyons d'abord comment est écrit le code officiel de Swoole pour l'exécution de tâches asynchrones.

$serv = new swoole_server("127.0.0.1", 9501);
//设置异步任务的工作进程数量
$serv->set(array(&#39;task_worker_num&#39; => 4));
$serv->on(&#39;receive&#39;, function($serv, $fd, $from_id, $data) {
    //投递异步任务
    $task_id = $serv->task($data);
    echo "Dispath AsyncTask: id=$task_id\n";
});
//处理异步任务
$serv->on(&#39;task&#39;, function ($serv, $task_id, $from_id, $data) {
    echo "New AsyncTask[id=$task_id]".PHP_EOL;
    //返回任务执行的结果
    $serv->finish("$data -> OK");
});
//处理异步任务的结果
$serv->on(&#39;finish&#39;, function ($serv, $task_id, $data) {
    echo "AsyncTask[$task_id] Finish: $data".PHP_EOL;
});
$serv->start();
Copier après la connexion

Vous pouvez voir que le responsable transmet la logique d'exécution ultérieure via une fonction anonyme. Vu sous cet angle, les choses deviennent beaucoup plus simples.

url = $url;
    }
    public function visitOneDegree()
    {
        $this->visit($this->url, function ($content) {
            $this->loadPage($content);
            $this->visitAll();
        });
    }
    private function loadPage($content)
    {
        $pattern = '#((http|ftp)://(\S*?\.\S*?))([\s)\[\]{},;"\':<]|\.\s|$)#i';
        preg_match_all($pattern, $content, $matched);
        foreach ($matched[0] as $url) {
            if (in_array($url, $this->toVisit)) {
                continue;
            }
            $this->toVisit[] = $url;
        }
    }
    private function visitAll()
    {
        foreach ($this->toVisit as $url) {
            $this->visit($url);
        }
    }
    private function visit($url, $callBack = null)
    {
        $urlInfo = parse_url($url);
        Swoole\Async::dnsLookup($urlInfo['host'], function ($domainName, $ip) use($urlInfo, $callBack) {
            if (!$ip) {
                return;
            }
            $cli = new swoole_http_client($ip, 80);
            $cli->setHeaders([
                'Host' => $domainName,
                "User-Agent" => 'Chrome/49.0.2587.3',
                'Accept' => 'text/html,application/xhtml+xml,application/xml',
                'Accept-Encoding' => 'gzip',
            ]);
            $cli->get($urlInfo['path'], function ($cli) use ($callBack) {
                if ($callBack) {
                    call_user_func($callBack, $cli->body);
                }
                $cli->close();
            });
        });
    }
}
Copier après la connexion

Après avoir lu ce code, je ressens un sentiment de déjà-vu. Dans le développement de nodejs, les rappels omniprésents ont leurs propres raisons. Maintenant, je comprends soudain que le rappel existe pour résoudre des problèmes asynchrones.
J'ai exécuté le programme et cela n'a pris que 0,0007s, et c'était terminé avant même de commencer ! L’efficacité asynchrone peut-elle vraiment être améliorée à ce point ? La réponse est bien sûr non, il y a quelque chose qui ne va pas avec notre code.
Grâce à l'utilisation de l'asynchrone, la logique de calcul de l'heure de fin a été exécutée sans attendre que la tâche soit complètement terminée. Il semble qu'il soit temps d'utiliser à nouveau le rappel.

/**
Async/Crawler.php
**/
    public function visitOneDegree($callBack)
    {
        $this->visit($this->url, function ($content) use($callBack) {
            $this->loadPage($content);
            $this->visitAll();
            call_user_func($callBack);
        });
    }
Copier après la connexion
<?php
/**
 * crawler.php
 */
require_once &#39;Async/Crawler.php&#39;;
$start = microtime(true);
$url = &#39;http://www.swoole.com/&#39;;
$ins = new Crawler($url);
$ins->visitOneDegree(function () use($start) {
    $timeUsed = microtime(true) - $start;
    echo "time used: " . $timeUsed;
});
/*output:
time used: 0.068463802337646
*/
Copier après la connexion

En y regardant maintenant, les résultats sont beaucoup plus crédibles.
Comparons la différence entre synchrone et asynchrone. La synchronisation prend 6,26 s et l'asynchrone prend 0,068 seconde, soit une différence totale de 6,192 s. Non, pour le dire plus précisément, cela devrait être près de 10 fois pire !
Bien sûr, en termes d'efficacité, le code asynchrone est bien supérieur au code synchrone, mais logiquement parlant, la logique asynchrone est plus compliquée que la logique synchrone, et le code apportera beaucoup de rappels, ce qui n'est pas facile à comprendre.
Swoole Official a une description sur le choix de l'asynchrone et du synchrone, qui est très pertinente. J'aimerais la partager avec vous :

我们不赞成用异步回调的方式去做功能开发,传统的PHP同步方式实现功能和逻辑是最简单的,也是最佳的方案。像node.js这样到处callback,只是牺牲可维护性和开发效率。
Copier après la connexion

Lecture connexe :

Comment installer l'extension swoole avec php7

Introduction aux points de développement Swoole

Exemple d'utilisation de swoole multithread asynchrone PHP

Ce qui précède est tout le contenu de cet article. Si les étudiants ont des questions, ils peuvent en discuter dans le. zone de commentaires ci-dessous ~

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment utiliser la coroutine Swoole dans Laravel Comment utiliser la coroutine Swoole dans Laravel Apr 09, 2024 pm 06:48 PM

L'utilisation des coroutines Swoole dans Laravel peut traiter un grand nombre de requêtes simultanément. Les avantages incluent : Traitement simultané : permet de traiter plusieurs requêtes en même temps. Hautes performances : Basé sur le mécanisme d’événements Linux epoll, il traite efficacement les requêtes. Faible consommation de ressources : nécessite moins de ressources serveur. Facile à intégrer : intégration transparente avec le framework Laravel, simple à utiliser.

Lequel est le meilleur, Swoole ou Workerman ? Lequel est le meilleur, Swoole ou Workerman ? Apr 09, 2024 pm 07:00 PM

Swoole et Workerman sont tous deux des frameworks de serveur PHP hautes performances. Connu pour son traitement asynchrone, ses excellentes performances et son évolutivité, Swoole convient aux projets qui doivent gérer un grand nombre de requêtes simultanées et un débit élevé. Workerman offre la flexibilité des modes asynchrone et synchrone, avec une API intuitive mieux adaptée à la facilité d'utilisation et aux projets gérant des volumes de concurrence inférieurs.

Comment swoole_process permet-il aux utilisateurs de changer ? Comment swoole_process permet-il aux utilisateurs de changer ? Apr 09, 2024 pm 06:21 PM

Swoole Process permet aux utilisateurs de changer. Les étapes spécifiques sont les suivantes : créer un processus ; définir l'utilisateur du processus pour démarrer le processus ;

Comment redémarrer le service dans le framework swoole Comment redémarrer le service dans le framework swoole Apr 09, 2024 pm 06:15 PM

Pour redémarrer le service Swoole, procédez comme suit : Vérifiez l'état du service et obtenez le PID. Utilisez "kill -15 PID" pour arrêter le service. Redémarrez le service en utilisant la même commande que celle utilisée pour démarrer le service.

Lequel a les meilleures performances, swoole ou java ? Lequel a les meilleures performances, swoole ou java ? Apr 09, 2024 pm 07:03 PM

Comparaison des performances : Débit : Swoole a un débit plus élevé grâce à son mécanisme de coroutine. Latence : la commutation de contexte de coroutine de Swoole a une surcharge et une latence plus faibles. Consommation de mémoire : les coroutines de Swoole occupent moins de mémoire. Facilité d'utilisation : Swoole fournit une API de programmation simultanée plus facile à utiliser.

Swoole en action : Comment utiliser les coroutines pour le traitement de tâches simultanées Swoole en action : Comment utiliser les coroutines pour le traitement de tâches simultanées Nov 07, 2023 pm 02:55 PM

Swoole en action : Comment utiliser les coroutines pour le traitement de tâches simultanées Introduction Dans le développement quotidien, nous rencontrons souvent des situations où nous devons gérer plusieurs tâches en même temps. La méthode de traitement traditionnelle consiste à utiliser plusieurs threads ou multi-processus pour réaliser un traitement simultané, mais cette méthode présente certains problèmes de performances et de consommation de ressources. En tant que langage de script, PHP ne peut généralement pas utiliser directement des méthodes multithread ou multi-processus pour gérer les tâches. Cependant, avec l'aide de la bibliothèque de coroutines Swoole, nous pouvons utiliser des coroutines pour obtenir un traitement de tâches simultanées hautes performances. Cet article présentera

Swoole Advanced : Comment optimiser l'utilisation du processeur du serveur Swoole Advanced : Comment optimiser l'utilisation du processeur du serveur Nov 07, 2023 pm 12:27 PM

Swoole est un framework de développement réseau PHP hautes performances. Grâce à son puissant mécanisme asynchrone et à ses fonctionnalités basées sur les événements, il peut créer rapidement des applications serveur à haute concurrence et à haut débit. Cependant, à mesure que l'activité continue de se développer et que le niveau de concurrence augmente, l'utilisation du processeur du serveur peut devenir un goulot d'étranglement, affectant les performances et la stabilité du serveur. Par conséquent, dans cet article, nous présenterons comment optimiser l'utilisation du processeur du serveur tout en améliorant les performances et la stabilité du serveur Swoole, et fournirons des exemples de code d'optimisation spécifiques. un,

Comment est programmée la coroutine swoole ? Comment est programmée la coroutine swoole ? Apr 09, 2024 pm 07:06 PM

Swoole coroutine est une bibliothèque de concurrence légère qui permet aux développeurs d'écrire des programmes simultanés. Le mécanisme de planification des coroutines Swoole est basé sur le modèle de coroutine et la boucle d'événements, utilisant la pile de coroutines pour gérer l'exécution des coroutines et suspendant les coroutines après qu'elles aient perdu le contrôle. La boucle d'événements gère les événements d'E/S et de minuterie. Lorsque la coroutine abandonne le contrôle, elle est suspendue et revient à la boucle d'événements. Lorsqu'un événement se produit, Swoole passe de la boucle d'événements à la coroutine en attente, complétant le changement en enregistrant et en chargeant l'état de la coroutine. La planification des coroutines utilise un mécanisme de priorité et prend en charge les opérations de suspension, de mise en veille et de reprise pour contrôler de manière flexible l'exécution de la coroutine.

See all articles