php教程 php手册 PHP 使用 CURL 同步抓取多个网页

PHP 使用 CURL 同步抓取多个网页

Jun 21, 2016 am 08:56 AM

一般CURL 抓网页的方法, 是一页一页抓, 假设要抓 4页, 所费时间各别是 5,10,7,5 秒, 那全部总合所花的时间就是 5 + 10 + 7 + 5 = 27 秒。若能同时间去抓取多个网页, 所花费的时间 5,10,7,5 秒, 全部总合所花的时间是 10 秒。(花费最多时间的秒数)

于JavaScript 可使用 AJAX 的 async(YAHOO.util.Connect.asyncRequest)来达成, 于 PHP 可以用 CURL 来达成此 Multi-Threading 的效果。

程序(async.php)

以下为引用的内容:
<font face="NSimsun"><?php <br/> function async_get_url($url_array, $wait_usec = 0)<br> {<br>     if (!is_array($url_array))<br>         return false;<br> <br>     $wait_usec = intval($wait_usec);<br> <br>     $data    = array();<br>     $handle  = array();<br>     $running = 0;<br> <br>     $mh = curl_multi_init(); // multi curl handler<br> <br>     $i = 0;<br>     foreach($url_array as $url) {<br>         $ch = curl_init();<br> <br>         curl_setopt($ch, CURLOPT_URL, $url);<br>         curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // return don't print<br>         curl_setopt($ch, CURLOPT_TIMEOUT, 30);<br>         curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)');<br>         curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // 302 redirect<br>         curl_setopt($ch, CURLOPT_MAXREDIRS, 7);<br> <br>         curl_multi_add_handle($mh, $ch); // 把 curl resource 放进 multi curl handler 里<br> <br>         $handle[$i++] = $ch;<br>     }<br> <br>     /* 执行 */<br>     do {<br>         curl_multi_exec($mh, $running);<br> <br>         if ($wait_usec > 0) /* 每个 connect 要间隔多久 */<br>             usleep($wait_usec); // 250000 = 0.25 sec<br>     } while ($running > 0);<br> <br>     /* 读取资料 */<br>     foreach($handle as $i => $ch) {<br>         $content  = curl_multi_getcontent($ch);<br>         $data[$i] = (curl_errno($ch) == 0) ? $content : false;<br>     }<br> <br>     /* 移除 handle*/<br>     foreach($handle as $ch) {<br>         curl_multi_remove_handle($mh, $ch);<br>     }<br> <br>     curl_multi_close($mh);<br> <br>     return $data;<br> }<br> ?> </font>

使用

以下为引用的内容:
$urls = array('http://example1.com', 'http://example2.com');
print_r(async_get_url($urls)); // [0] => example1, [1] => example2
?>

测试

sleep.php # 看时间延长取得的效果

以下为引用的内容:
sleep(intval($_GET['time']));
echo intval($_GET['time']);
?>

以下为引用的内容:
$url_array = array(
        'http://example.com/sleep.php?time=5',
        'http://example.com/sleep.php?time=10',
        'http://example.com/sleep.php?time=7',
        'http://example.com/sleep.php?time=5',
        );
print_r(async_get_url($url_array));
// 总花费时间会是 10 秒, 并印出 [0] => 5, [1] => 10, [2] => 7, [3] => 5
?>



본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)