首頁 php教程 php手册 PHP 使用 CURL 同步抓取多个网页

PHP 使用 CURL 同步抓取多个网页

Jun 21, 2016 am 08:56 AM

一般CURL 抓网页的方法, 是一页一页抓, 假设要抓 4页, 所费时间各别是 5,10,7,5 秒, 那全部总合所花的时间就是 5 + 10 + 7 + 5 = 27 秒。若能同时间去抓取多个网页, 所花费的时间 5,10,7,5 秒, 全部总合所花的时间是 10 秒。(花费最多时间的秒数)

于JavaScript 可使用 AJAX 的 async(YAHOO.util.Connect.asyncRequest)来达成, 于 PHP 可以用 CURL 来达成此 Multi-Threading 的效果。

程序(async.php)

以下为引用的内容:
<font face="NSimsun"><?php <br/> function async_get_url($url_array, $wait_usec = 0)<br> {<br>     if (!is_array($url_array))<br>         return false;<br> <br>     $wait_usec = intval($wait_usec);<br> <br>     $data    = array();<br>     $handle  = array();<br>     $running = 0;<br> <br>     $mh = curl_multi_init(); // multi curl handler<br> <br>     $i = 0;<br>     foreach($url_array as $url) {<br>         $ch = curl_init();<br> <br>         curl_setopt($ch, CURLOPT_URL, $url);<br>         curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // return don't print<br>         curl_setopt($ch, CURLOPT_TIMEOUT, 30);<br>         curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)');<br>         curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // 302 redirect<br>         curl_setopt($ch, CURLOPT_MAXREDIRS, 7);<br> <br>         curl_multi_add_handle($mh, $ch); // 把 curl resource 放进 multi curl handler 里<br> <br>         $handle[$i++] = $ch;<br>     }<br> <br>     /* 执行 */<br>     do {<br>         curl_multi_exec($mh, $running);<br> <br>         if ($wait_usec > 0) /* 每个 connect 要间隔多久 */<br>             usleep($wait_usec); // 250000 = 0.25 sec<br>     } while ($running > 0);<br> <br>     /* 读取资料 */<br>     foreach($handle as $i => $ch) {<br>         $content  = curl_multi_getcontent($ch);<br>         $data[$i] = (curl_errno($ch) == 0) ? $content : false;<br>     }<br> <br>     /* 移除 handle*/<br>     foreach($handle as $ch) {<br>         curl_multi_remove_handle($mh, $ch);<br>     }<br> <br>     curl_multi_close($mh);<br> <br>     return $data;<br> }<br> ?> </font>

使用

以下为引用的内容:
$urls = array('http://example1.com', 'http://example2.com');
print_r(async_get_url($urls)); // [0] => example1, [1] => example2
?>

测试

sleep.php # 看时间延长取得的效果

以下为引用的内容:
sleep(intval($_GET['time']));
echo intval($_GET['time']);
?>

以下为引用的内容:
$url_array = array(
        'http://example.com/sleep.php?time=5',
        'http://example.com/sleep.php?time=10',
        'http://example.com/sleep.php?time=7',
        'http://example.com/sleep.php?time=5',
        );
print_r(async_get_url($url_array));
// 总花费时间会是 10 秒, 并印出 [0] => 5, [1] => 10, [2] => 7, [3] => 5
?>



本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前 By 尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)