PHP シングルスレッドによる Web ページの並列クロールの実装_PHP チュートリアル
Web ページの並列クロールの PHP シングルスレッド実装
この PHP チュートリアルでは、複数のページ情報を並列クロールするプロセスをシミュレートします。鍵はシングルスレッドの並列処理にあります。
通常の状況では、複数のページから情報を取得するプログラムを作成するときに誰もがシリアル ソリューションを使用しますが、取得サイクルが長すぎて実用的ではありません。そこで、curlを使って並列クロールすることを考えました。しかし、その仮想サーバーにはカールが存在しないことが最終的に判明し、非常に混乱しました。そこで、考え方を変えて、単一のスレッドを使用して複数のスレッドの効果を実現することにしました。ネットワークプログラミングについて知りたいです
IO 再利用の概念を知っている人は、もちろん PHP でもサポートされており、拡張機能は必要ありません。
プログラミング経験が長年ある人は、PHPのストリーム機能についてあまり知らないかもしれません。 PHP の圧縮ファイル ストリーム、ファイル ストリーム、および tcp プロトコルに基づくアプリケーションは、すべて 1 つのストリームにカプセル化されます。それで、ローカルファイルを読んでください
ネットワークファイルの読み取りと違いはありません。ここまで述べましたが、基本的には皆さんも理解していると思います。コードを貼り付けてみましょう。
コードは比較的大まかですが、実際に使用する場合は、まだいくつかの詳細に対処する必要があります。コード
関数 http_get_open($url)
{
$url = parse_url($url);
if (empty($url['host'])) {
false を返す;
}
$host = $url['host'];
if (empty($url['path'])) {
$url['path'] = "/";
}
$get = $url['path'] . "?"
$fp = stream_socket_client("tcp://{$host}:80", $errno, $errstr, 30);
if (!$fp) {
エコー「$errstr ($errno)」
ん」;
false を返す;
} 他 {
fwrite($fp, "GET {$get} HTTP/1.0rnHost: {$host}rnAccept: */*rnrn");
}
$fp を返す;
}
関数 http_multi_get($urls)
{
$result = array();
$fps = array();
foreach ($urls as $key => $url)
{
$fp = http_get_open($url);
if ($fp === false) {
$result[$key] = false;
} 他 {
$result[$key] = '';
$fps[$key] = $fp;
}
}
ながら(1)
{
$reads = $fps;
if (empty($reads)) {
休憩;
}
if (($num = stream_select($reads, $w = null, $e = null, 30)) === false ) {
エコー「エラー」;
false を返す;
} else if ($num > 0) {//can read
foreach ($は$valueとして読み取られます)
{
$key = array_search($value, $fps);
if (!feof($value)) {
$result[$key] .= fread($value, 128);
} 他 {
unset($fps[$key]);
}
}
} else {//タイムアウト
エコー「タイムアウト」;
false を返す;
}
}
foreach ($result as $key => &$value)
{
if ($value) {
$value =explode("rnrn", $value, 2);
}
}
$result を返す;
}
$urls = array();
$urls[] = "http://www.qq.com";
$urls[] = "http://www.sina.com.cn";
$urls[] = "http://www.sohu.com";
$urls[] = "http://www.blue1000.com";
//並行クロール
$t1 = microtime(true);
$result = http_multi_get($urls);
$t1 = microtime(true) - $t1;
var_dump("コスト: " . $t1);
//シリアルキャプチャ
$t1 = microtime(true);
foreach ($urlsを$valueとして)
{
file_get_contents($value);
}
$t1 = microtime(true) - $t1;
var_dump("コスト: " . $t1);
?>
最終的な実行結果:
文字列「コスト: 3.2403128147125」(長さ=21)
文字列「コスト: 6.2333900928497」(長さ=21)
基本的に効率が 2 倍になります。もちろん、Sina は非常に遅く、約 2.5 秒かかります。
基本的に私は彼に引きずり込まれました、360は0.2秒しかかかりませんすべてのWebサイトの速度が同等で、並列数が多ければ、その差の倍数は大きくなります。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









PHP 8.4 では、いくつかの新機能、セキュリティの改善、パフォーマンスの改善が行われ、かなりの量の機能の非推奨と削除が行われています。 このガイドでは、Ubuntu、Debian、またはその派生版に PHP 8.4 をインストールする方法、または PHP 8.4 にアップグレードする方法について説明します。

CakePHP は、PHP 用のオープンソース フレームワークです。これは、アプリケーションの開発、展開、保守をより簡単にすることを目的としています。 CakePHP は、強力かつ理解しやすい MVC のようなアーキテクチャに基づいています。モデル、ビュー、コントローラー

Visual Studio Code (VS Code とも呼ばれる) は、すべての主要なオペレーティング システムで利用できる無料のソース コード エディター (統合開発環境 (IDE)) です。 多くのプログラミング言語の拡張機能の大規模なコレクションを備えた VS Code は、

CakePHP はオープンソースの MVC フレームワークです。これにより、アプリケーションの開発、展開、保守がはるかに簡単になります。 CakePHP には、最も一般的なタスクの過負荷を軽減するためのライブラリが多数あります。

このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML(拡張可能なマークアップ言語)は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

文字列は、文字、数字、シンボルを含む一連の文字です。このチュートリアルでは、さまざまな方法を使用してPHPの特定の文字列内の母音の数を計算する方法を学びます。英語の母音は、a、e、i、o、u、そしてそれらは大文字または小文字である可能性があります。 母音とは何ですか? 母音は、特定の発音を表すアルファベットのある文字です。大文字と小文字など、英語には5つの母音があります。 a、e、i、o、u 例1 入力:string = "tutorialspoint" 出力:6 説明する 文字列「TutorialSpoint」の母音は、u、o、i、a、o、iです。合計で6元があります

あなたが経験豊富な PHP 開発者であれば、すでにそこにいて、すでにそれを行っていると感じているかもしれません。あなたは、運用を達成するために、かなりの数のアプリケーションを開発し、数百万行のコードをデバッグし、大量のスクリプトを微調整してきました。
