php采集远程文章简单类-PHP源码-php.cn

php采集远程文章简单类
PHP中文网
Lepaskan： 2016-05-25 17:10:46
asal
1494 orang telah melayarinya
db = $db;
    }

    function geturlfile($url) {
        $url = trim($url);
        $content = &#39;&#39;;
        if (extension_loaded(&#39;curl&#39;)) {
            $ch = curl_init();
            curl_setopt($ch, CURLOPT_URL, $url);
            curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
            curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
            curl_setopt($ch, CURLOPT_HEADER, 0);
            $content = curl_exec($ch);
            curl_close($ch);
        } else {
            $content = file_get_contents($url);
        }
        return trim($content);
    }

    function get_all_url($code) {
        preg_match_all(&#39;/"\&#39; ]+)["|\&#39;]?\s*[^>]*>([^>]+)/is&#39;, $code, $arr);
        return array(&#39;name&#39; => $arr[2], &#39;url&#39; => $arr[1]);
    }

    function get_sub_content($str, $start, $end) {
        $start = trim($start);
        $end = trim($end);
        if ($start == &#39;&#39; || $end == &#39;&#39;) {
            return $str;
        }
        $str = explode($start, $str);
        $str = explode($end, $str[1]);
        return $str[0];
    }
   
    function vd($var) {
        echo "\r\n";
        echo "\r\n";
        var_dump($var);
        echo "\r\n\r\n";
        echo "";
    }

}

?>geturlfile($url);
//定义采集列表区间
$start = &#39;&#39;;
$end = &#39;&#39;;
//获取区间内的文章URL和TITLE
$code = $gather->get_sub_content($html, $start, $end);
$newsAry = $gather->get_all_url($code);
//打印出结果
//$gather->vd($newsAry);
$tarGetUrl = $newsAry[&#39;url&#39;][0];
//获取目标网址HTML
$html = $gather->geturlfile($tarGetUrl);
//定义采集列表区间
$start = &#39;&#39;;
$end = &#39;&#39;;
//获取区间内的文章URL和TITLE
$code = $gather->get_sub_content($html, $start, $end);
$killHtml = &#39;&#39;;
$killHtml2 = &#39;&#39;;
$code = str_replace($killHtml, "", $code);
$code = str_replace($killHtml2, "", $code);
$gather->vd($code);
?>
Salin selepas log masuk