首頁 > php教程 > PHP源码 > php网络爬虫技术

php网络爬虫技术

PHP中文网
發布: 2016-05-25 17:12:47
原創
1397 人瀏覽過

php代码

function get_urls($url){  

       $url_array=array();  

       $the_first_content=file_get_contents($url);  

       $the_second_content=file_get_contents($url);  

       $pattern1 = "/http:\/\/[a-zA-Z0-9\.\?\/\-\=\&\:\+\-\_\'\"]+/";  

       $pattern2="/http:\/\/[a-zA-Z0-9\.]+/";  

       preg_match_all($pattern2, $the_second_content, $matches2);  

       preg_match_all($pattern1, $the_first_content, $matches1);  

       $new_array1=array_unique($matches1[0]);  

       $new_array2=array_unique($matches2[0]);  

       $final_array=array_merge($new_array1,$new_array2);  

       $final_array=array_unique($final_array);  

       for($i=0;$i<count($final_array);$i++)  

       {  

          echo $final_array[$i]."
";  

       }  

   }  

    get_urls("http://www.baidu.com");
登入後複製

相關標籤:
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門推薦
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板