ホームページ > バックエンド開発 > PHPチュートリアル > PHPマルチプロセスプログラミング(3) マルチプロセスWebクローリングのデモ

PHPマルチプロセスプログラミング(3) マルチプロセスWebクローリングのデモ

WBOY
リリース: 2016-06-20 12:32:37
オリジナル
745 人が閲覧しました

コードのこの部分を理解するには、以下をお読みください:

PHP マルチプロセス プログラミング (1)

PHP マルチプロセス プログラミング (2) パイプ通信

親プロセスから子プロセスにデータを転送するのは比較的簡単ですが、子プロセスから親プロセスにデータを転送するのはより難しいことがわかっています。

プロセスの対話を実現する方法はたくさんありますが、PHP でより便利なのはパイプ通信です。もちろん、socket_pair経由で通信することも可能です。

最初に、各リクエストに応答するためにサーバーが何をしなければならないかです (URL シーケンスを送信します。URL シーケンスは t で区切られます。終了タグは n です)

function clientHandle($msgsock, $obj){    $nbuf = '';    socket_set_block($msgsock);    do {        if (false === ($buf = @socket_read($msgsock, 2048, PHP_NORMAL_READ))) {            $obj->error("socket_read() failed: reason: " . socket_strerror(socket_last_error($msgsock)));            break;        }        $nbuf .= $buf;        if (substr($nbuf, -1) != "\n") {            continue;        }        $nbuf = trim($nbuf);        if ($nbuf == 'quit') {            break;        }        if ($nbuf == 'shutdown') {            break;        }        $url = explode("\t", $nbuf);        $nbuf = '';        $talkback = serialize(read_ntitle($url));        socket_write($msgsock, $talkback, strlen($talkback));        debug("write to the client\n");        break;    } while (true);}
ログイン後にコピー

上記のコードはより重要です。 1 つの部分は read_ntitle であり、この関数はタイトルのマルチスレッド読み取りを実装します。

コードは次のとおりです: (URL ごとにスレッドをフォークし、パイプを開き、読み取ったタイトルをパイプに書き込みます。メインスレッドは、すべてのデータが読み取られるまでパイプ データを読み取り続けます。完了、最後にパイプを削除します)

function read_ntitle($arr){    $pipe = new Pipe("multi-read");    foreach ($arr as $k => $item)    {        $pids[$k] = pcntl_fork();        if(!$pids[$k])        {             $pipe->open_write();             $pid = posix_getpid();             $content = base64_encode(read_title($item));             $pipe->write("$k,$content\n");             $pipe->close_write();             debug("$k: write success!\n");             exit;        }    }    debug("read begin!\n");    $data = $pipe->read_all();    debug("read end!\n");$pipe->rm_pipe();return parse_data($data);}parse_data 代码如下,非常的简单,就不说了。parse_data  代码如下,非常的简单,就不说了。function parse_data($data){    $data = explode("\n", $data);    $new = array();    foreach ($data as $value)    {        $value = explode(",", $value);        if (count($value) == 2) {            $value[1] = base64_decode($value[1]);            $new[intval($value[0])] = $value[1];        }    }    ksort($new, SORT_NUMERIC);    return $new;}
ログイン後にコピー

上記のコードには、より巧妙な関数 read_title もあります。互換性を考慮してcurlは使用せず、直接ソケット通信を使用しました。

時間を節約するために、タイトル タグをダウンロードした後はコンテンツを読むのをやめてください。コードは次のとおりです。

function read_title($url){    $url_info = parse_url($url);    if (!isset($url_info['host']) || !isset($url_info['scheme'])) {     return false;    }    $host = $url_info['host'];     $port = isset($url_info['port']) ? $url_info['port'] : null; $path = isset($url_info['path']) ? $url_info['path']  : "/"; if(isset($url_info['query'])) $path .= "?".$url_info['query']; if(empty($port)){  $port = 80; } if ($url_info['scheme'] == 'https'){  $port = 443; } if ($url_info['scheme'] == 'http') {  $port = 80; }    $out = "GET $path HTTP/1.1\r\n";    $out .= "Host: $host\r\n";    $out .= "User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.7)\r\n";    $out .= "Connection: Close\r\n\r\n";    $fp = fsockopen($host, $port, $errno, $errstr, 5);    if ($fp == NULL) {     error("get title from $url, error. $errno: $errstr \n");     return false;    }    fwrite($fp, $out);    $content = '';    while (!feof($fp)) {        $content .= fgets($fp, 1024);        if (preg_match("/<title>(.*?)<\/title>/is", $content, $matches)) {             fclose($fp);            return encode_to_utf8($matches[1]);        }    }    fclose($fp);    return false;}function encode_to_utf8($string) {     return mb_convert_encoding($string, "UTF-8", mb_detect_encoding($string, "UTF-8, GB2312, ISO-8859-1", true));}
ログイン後にコピー

ここでは、最も一般的な 3 つのエンコーディングを検出しました。他のコードは非常に単純です。これらのコードはテスト用です。このようなサーバーを構築する場合は、最適化する必要があります。特に、一度に多くのプロセスが開かれないようにするには、より多くの処理を実行する必要があります。

私たちは PHP がマルチプロセスをサポートしていないという不満を何度も抱きます。実際、PHP はマルチプロセスをサポートしています。もちろん、プロセス通信のオプションはそれほど多くはありません。マルチプロセスの核心はプロセス通信と同期にあります。 Web 開発では、このようなマルチスレッドはパフォーマンスに重大な問題があるため、基本的には使用されません。比較的単純なマルチプロセスと高負荷を実現するには、その拡張を使用する必要があります。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート