ホームページ バックエンド開発 PHPチュートリアル PHP は Curl 関数を使用して、Web ページのマルチスレッド クロールとファイルのダウンロードを実装します。

PHP は Curl 関数を使用して、Web ページのマルチスレッド クロールとファイルのダウンロードを実装します。

Jun 20, 2016 pm 01:03 PM

PHP は Curl 関数を使用して、ブラウザをシミュレートして GET や POST リクエストを送信するなど、さまざまなファイル転送操作を実行できます。ただし、PHP 言語自体はマルチスレッドをサポートしていないため、クローラー プログラムの開発効率は低くなります。 Curl Multi Functions を使用する必要があります。この機能は、Web ページの同時マルチスレッド クローリングやファイルのダウンロードを実現するために、複数の URL アドレスへの同時マルチスレッド アクセスを実装します。具体的な実装プロセスについては、を参照してください。次の例:

(1) 以下のコード スニペットは、複数の URL をキャプチャし、キャプチャした URL のページ コードを指定されたファイルに書き込みます

<p>$urls = array( </p>'http://www.scutephp.com/', <br />'http://www.google.com/', <br />'http://www.example.com/' <br />); // 设置要抓取的页面URL <br />$save_to='/test.txt'; // 把抓取的代码写入该文件 <br />$st = fopen($save_to,&quot;a&quot;); <br />$mh = curl_multi_init(); <br />foreach ($urls as $i =&gt; $url) { <br />$conn[$i] = curl_init($url); <br />curl_setopt($conn[$i], CURLOPT_USERAGENT, &quot;Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)&quot;); <br />curl_setopt($conn[$i], CURLOPT_HEADER ,0); <br />curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60); <br />curl_setopt($conn[$i], CURLOPT_FILE,$st); // 将爬取的代码写入文件 <br />curl_multi_add_handle ($mh,$conn[$i]); <br />} // 初始化 <br />do { <br />curl_multi_exec($mh,$active); <br />} while ($active); // 执行 <br />foreach ($urls as $i =&gt; $url) { <br />curl_multi_remove_handle($mh,$conn[$i]); <br />curl_close($conn[$i]); <br />} // 结束清理 <br />curl_multi_close($mh); <br /><p>fclose($st);
ログイン後にコピー

(2) 以下のコードと上記はほぼ同じ意味ですが、ここでは取得したコードを変数に入れてから、取得した内容を指定したファイルに書き込むことになります

<p>$urls = array( </p>'http://www.scutephp.com/', <br />'http://www.google.com/', <br />'http://www.example.com/' <br />); <br />$save_to='/test.txt'; // 把抓取的代码写入该文件 <br />$st = fopen($save_to,&quot;a&quot;); <br />$mh = curl_multi_init(); <br />foreach ($urls as $i =&gt; $url) { <br />$conn[$i] = curl_init($url); <br />curl_setopt($conn[$i], CURLOPT_USERAGENT, &quot;Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)&quot;); <br />curl_setopt($conn[$i], CURLOPT_HEADER ,0); <br />curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60); <br />curl_setopt($conn[$i],CURLOPT_RETURNTRANSFER,true); // 不将爬取代码写到浏览器,而是转化为字符串 <br />curl_multi_add_handle ($mh,$conn[$i]); <br />} <br />do { <br />curl_multi_exec($mh,$active); <br />} while ($active); <br />foreach ($urls as $i =&gt; $url) { <br />$data = curl_multi_getcontent($conn[$i]); // 获得爬取的代码字符串 <br />fwrite($st,$data); // 将字符串写入文件<br />} // 获得数据变量,并写入文件 <br />foreach ($urls as $i =&gt; $url) { <br />curl_multi_remove_handle($mh,$conn[$i]); <br />curl_close($conn[$i]); <br />}<br />curl_multi_close($mh); <br /><p>fclose($st);
ログイン後にコピー

(3 ) 次のコードは、PHP の Curl 関数

<p>$urls=array(</p>	'http://www.scutephp.com/5w.zip',<br />	'http://www.scutephp.com/5w.zip',<br />	'http://www.scutephp.com/5w.zip'<br />);<br />$save_to='./home/';<br />$mh=curl_multi_init();<br />foreach($urls as $i=&gt;$url){<br />	$g=$save_to.basename($url);<br />	if(!is_file($g)){<br />		$conn[$i]=curl_init($url);<br />		$fp[$i]=fopen($g,&quot;w&quot;);<br />		curl_setopt($conn[$i],CURLOPT_USERAGENT,&quot;Mozilla/4.0(compatible; MSIE 7.0; Windows NT 6.0)&quot;);<br />		curl_setopt($conn[$i],CURLOPT_FILE,$fp[$i]);<br />		curl_setopt($conn[$i],CURLOPT_HEADER ,0);<br />		curl_setopt($conn[$i],CURLOPT_CONNECTTIMEOUT,60);<br />		curl_multi_add_handle($mh,$conn[$i]);<br />	}<br />}<br />do{<br />	$n=curl_multi_exec($mh,$active);<br />}while($active);<br />foreach($urls as $i=&gt;$url){<br />	curl_multi_remove_handle($mh,$conn[$i]);<br />	curl_close($conn[$i]);<br />	fclose($fp[$i]);<br />}<br />curl_multi_close($mh);$urls=array(<br />	'http://www.scutephp.com/5w.zip',<br />	'http://www.scutephp.com/5w.zip',<br />	'http://www.scutephp.com/5w.zip'<br />);<br />$save_to='./home/';<br />$mh=curl_multi_init();<br />foreach($urls as $i=&gt;$url){<br />	$g=$save_to.basename($url);<br />	if(!is_file($g)){<br />		$conn[$i]=curl_init($url);<br />		$fp[$i]=fopen($g,&quot;w&quot;);<br />		curl_setopt($conn[$i],CURLOPT_USERAGENT,&quot;Mozilla/4.0(compatible; MSIE 7.0; Windows NT 6.0)&quot;);<br />		curl_setopt($conn[$i],CURLOPT_FILE,$fp[$i]);<br />		curl_setopt($conn[$i],CURLOPT_HEADER ,0);<br />		curl_setopt($conn[$i],CURLOPT_CONNECTTIMEOUT,60);<br />		curl_multi_add_handle($mh,$conn[$i]);<br />	}<br />}<br />do{<br />	$n=curl_multi_exec($mh,$active);<br />}while($active);<br />foreach($urls as $i=&gt;$url){<br />	curl_multi_remove_handle($mh,$conn[$i]);<br />	curl_close($conn[$i]);<br />	fclose($fp[$i]);<br />}<br />curl_multi_close($mh);
ログイン後にコピー


を使用してファイルの同時マルチスレッド ダウンロードを実装します。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットな記事タグ

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

11ベストPHP URLショートナースクリプト(無料およびプレミアム) 11ベストPHP URLショートナースクリプト(無料およびプレミアム) Mar 03, 2025 am 10:49 AM

11ベストPHP URLショートナースクリプト(無料およびプレミアム)

Laravelでフラッシュセッションデータを使用します Laravelでフラッシュセッションデータを使用します Mar 12, 2025 pm 05:08 PM

Laravelでフラッシュセッションデータを使用します

Instagram APIの紹介 Instagram APIの紹介 Mar 02, 2025 am 09:32 AM

Instagram APIの紹介

Laravelテストでの簡略化されたHTTP応答のモッキング Laravelテストでの簡略化されたHTTP応答のモッキング Mar 12, 2025 pm 05:09 PM

Laravelテストでの簡略化されたHTTP応答のモッキング

LaravelのバックエンドでReactアプリを構築する:パート2、React LaravelのバックエンドでReactアプリを構築する:パート2、React Mar 04, 2025 am 09:33 AM

LaravelのバックエンドでReactアプリを構築する:パート2、React

PHPのカール:REST APIでPHPカール拡張機能を使用する方法 PHPのカール:REST APIでPHPカール拡張機能を使用する方法 Mar 14, 2025 am 11:42 AM

PHPのカール:REST APIでPHPカール拡張機能を使用する方法

Codecanyonで12の最高のPHPチャットスクリプト Codecanyonで12の最高のPHPチャットスクリプト Mar 13, 2025 pm 12:08 PM

Codecanyonで12の最高のPHPチャットスクリプト

Laravelの通知 Laravelの通知 Mar 04, 2025 am 09:22 AM

Laravelの通知

See all articles