Swoole の実践: コルーチンを使用して高性能のクローラーを構築する方法

PHPz
リリース: 2023-06-15 13:07:48
オリジナル
1059 人が閲覧しました

インターネットの普及に伴い、Web クローラーは非常に重要なツールになりました。これを使用すると、必要なデータを迅速にクロールできるため、データ取得コストを削減できます。クローラーの実装では、パフォーマンスが常に重要な考慮事項となります。 Swoole は PHP に基づいたコルーチン フレームワークで、高性能 Web クローラーを迅速に構築するのに役立ちます。この記事では、Web クローラーでの Swoole コルーチンのアプリケーションを紹介し、Swoole を使用して高性能 Web クローラーを構築する方法を説明します。

1. Swoole コルーチンの概要

Swoole コルーチンを紹介する前に、まずコルーチンの概念を理解する必要があります。コルーチンは、マイクロスレッドとも呼ばれるユーザーモード スレッドであり、スレッドの作成と破棄によって生じるオーバーヘッドを回避できます。コルーチンはより軽量なスレッドとみなすことができ、プロセス内で複数のコルーチンを作成でき、いつでもコルーチンを切り替えて同時実行効果を実現できます。

Swoole はコルーチンをベースにしたネットワーク通信フレームワークで、PHP のスレッド モデルをコルーチン モデルに変更することで、プロセス間の切り替えコストを回避できます。 Swoole のコルーチン モデルでは、プロセスは数万の同時リクエストを同時に処理できるため、プログラムの同時処理能力が大幅に向上します。

2. Web クローラーでの Swoole コルーチンの適用

Web クローラーの実装では、通常、同時リクエストを処理するためにマルチスレッドまたはマルチプロセスが使用されます。ただし、この方法には、スレッドまたはプロセスの作成と破棄のオーバーヘッドが高く、スレッドまたはプロセス間の切り替えにもオーバーヘッドが発生し、スレッドまたはプロセス間の通信の問題も考慮する必要があるなど、いくつかの欠点があります。 Swoole コルーチンはこれらの問題を解決し、高性能 Web クローラーを簡単に実装できます。

Swoole コルーチンを使用して Web クローラーを実装する主なプロセスは次のとおりです:

  1. クロールされたページの URL リストを定義します。
  2. Swoole コルーチンの http クライアントを使用して HTTP リクエストを送信し、ページ データを取得し、ページ データを解析します。
  3. 解析されたデータを処理して保存するには、データベース、Redis などを保存に使用できます。
  4. Swoole コルーチンのタイマー機能を使用して、クローラーの実行時間を設定し、タイムアウトになったら実行を停止します。

具体的な実装については、次のクローラー コードを参照してください:

<?php

use SwooleCoroutineHttpClient;

class Spider
{
    private $urls = array();
    private $queue;
    private $maxDepth = 3; // 最大爬取深度
    private $currDepth = 0; // 当前爬取深度
    private $startTime;
    private $endTime;
    private $concurrency = 10; // 并发数
    private $httpClient;

    public function __construct($urls)
    {
        $this->urls = $urls;
        $this->queue = new SplQueue();
        $this->httpClient = new Client('127.0.0.1', 80);
    }

    public function run()
    {
        $this->startTime = microtime(true);
        foreach ($this->urls as $url) {
            $this->queue->enqueue($url);
        }
        while (!$this->queue->isEmpty() && $this->currDepth <= $this->maxDepth) {
            $this->processUrls();
            $this->currDepth++;
        }
        $this->endTime = microtime(true);
        echo "爬取完成,用时:" . ($this->endTime - $this->startTime) . "s
";
    }

    private function processUrls()
    {
        $n = min($this->concurrency, $this->queue->count());
        $array = array();
        for ($i = 0; $i < $n; $i++) {
            $url = $this->queue->dequeue();
            $array[] = $this->httpClient->get($url);
        }
        // 等待所有请求结束
        foreach ($array as $httpResponse) {
            $html = $httpResponse->body;
            $this->parseHtml($html);
        }
    }

    private function parseHtml($html)
    {
        // 解析页面
        // ...
        // 处理并存储数据
        // ...
        // 将页面中的URL添加到队列中
        // ...
    }
}
ログイン後にコピー

上記のコードでは、Swoole コルーチンの Http クライアントを使用して HTTP リクエストを送信し、PHP を使用します。組み込みの DOMDocument クラスを使用すると、実際のビジネス ニーズに応じてデータを処理および保存するためのコードを実装できます。

3. Swoole を使用して高性能 Web クローラーを構築する方法

  1. マルチプロセス/マルチスレッド

マルチプロセスの使用/実現するマルチスレッド方式 Web クローリングでは、プロセス/スレッドのコンテキスト切り替えのオーバーヘッドと、プロセス/スレッド間の通信の問題に注意する必要があります。同時に、PHP 自体の制限により、マルチコア CPU が十分に活用されない可能性があります。

  1. Swoole コルーチン

Swoole コルーチンを使用すると、高性能 Web クローラーを簡単に実装でき、マルチプロセス/マルチスレッドの問題も回避できます。

Swoole コルーチンを使用して Web クローラーを実装する場合は、次の点に注意する必要があります。

(1) コルーチンを使用して HTTP リクエストを送信します。

(2) コルーチンを使用してページ データを解析します。

(3) コルーチンを使用してデータを処理します。

(4) タイマー機能を使用して、クローラーの実行時間を設定します。

(5) キューを使用してクロールされた URL を管理します。

(6) クローラーの効率を向上させるために同時実行数を設定します。

4. 概要

この記事では、Swoole コルーチンを使用して高性能 Web クローラーを構築する方法を紹介します。 Swoole コルーチンを使用すると、高性能 Web クローラーを簡単に実装できると同時に、マルチスレッド/マルチプロセスに関するいくつかの問題を回避できます。実際のアプリケーションでは、キャッシュや CDN を使用してクローラの効率を向上させるなど、実際のビジネス ニーズに応じた最適化を実行できます。

以上がSwoole の実践: コルーチンを使用して高性能のクローラーを構築する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート