Heim > Backend-Entwicklung > PHP-Tutorial > php 文章采集正则代码_php技巧

php 文章采集正则代码_php技巧

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
Freigeben: 2016-05-17 09:28:48
Original
994 Leute haben es durchsucht
复制代码 代码如下:

//采集html
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return $contents;
}


//获得标题和url
$string =
getwebcontent('http://www.***.com/learn/zhunbeihuaiyun/jijibeiyun/2');
//正则匹配
  • 获取标题和地址
    preg_match_all ("/
  • (.*)/",$string, $out, PREG_SET_ORDER);
    foreach($out as $key => $value){
    $article['title'][] = $out[$key][2];
    $article['link'][] = "http://www.***.com/learn/article/".$out[$key][1];
    }
    //根据url获取文章内容
    foreach($article['link'] as $key=>$value){
    $content_html = getwebcontent($article['link'][$key]);
    preg_match("/
    [\s|\S]*?/",$content_html,$matches);
    $article[content][$key] = $matches[0];

    }
    //不转码还真不能保存成文件
    foreach($article[title] as $key=>$value){
    $article[title][$key] = iconv('utf-8', 'gbk', $value);//转码
    }
    //存入文件
    $num = count($article['title']);
    for($i=0; $ifile_put_contents("{$article[title][$i]}.txt", $article['content'][$i]);
    }
    ?>
  • Verwandte Etiketten:
    php
    Quelle:php.cn
    Erklärung dieser Website
    Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
    Aktuelle Ausgaben
    PHP-Datenerfassung?
    Aus 1970-01-01 08:00:00
    0
    0
    0
    PHP-Erweiterung intl
    Aus 1970-01-01 08:00:00
    0
    0
    0
    Wie man PHP gut lernt
    Aus 1970-01-01 08:00:00
    0
    0
    0
    Mehrere PHP-Versionen
    Aus 1970-01-01 08:00:00
    0
    0
    0
    Beliebte Tutorials
    Mehr>
    Neueste Downloads
    Mehr>
    Web-Effekte
    Quellcode der Website
    Website-Materialien
    Frontend-Vorlage