php利用fopen实现简单的网页采集程序
Jun 02, 2016 am 09:13 AM这个采集程序是一个非常简单的程序了,个人认为不适合于大量数据采集了单页还是没有问题了,因为fopen函数对于远程文件操作与多线程时是非常的不理想的,这个只是一个作者写的觉得好玩合出来了,代码如下:
<?php /** * 根据URL采集网页内容 * * @param string $url 链接地址 * @return string */ private function fetchbyurl($url) { $handle = fopen($url, 'r'); $content = "; while (!feof($handle)){ $content .= fgets($handle, 10000); } return $content; //?$this->utf8_iconv($content):"; } /*获取所有匹配的内容 * @param string $str 内容 * @param string $start 起始匹配 * @param string $end 中止匹配 * @return array */ private function utf8_iconv($content) { return iconv('GBK', 'UTF-8', $content); } private function strCutAll($str, $start, $end) { $content = explode($start, $str); $matchs = array(); $sum = count($content); for ($i = 1; $i < $sum; $i++) { $tmp = explode($end, $content[$i]); $matchs[] = $tmp[0]; unset($tmp); } return $matchs; } /*获取第一个匹配的内容 * @param string $str 内容 * @param string $start 起始匹配 * @param string $end 中止匹配 * @return string */ private function strCut($str, $start, $end) { $content = strstr($str, $start); $content = substr($content, strlen($start) , strpos($content, $end) - strlen($start)); return $content; } ?>
登入後複製
/*采集程序*/ header("content-Type: text/html; charset=utf-8"); //$nr = file_get_contents(‘/webback/php/php-yi-ju-hua-hou-men-zhuan’); $nr = $this->fetchbyurl(‘/webback/php/php-yi-ju-hua-hou-men-zhuan’); //推荐,还可以用curl dump($this->strCut($nr,’<div class="context">’,'<div class="betterrelated">’)); //得到内容。需要进一步过滤用(preg_match_all) dump($this->strCutAll($nr,’<title>’,'</title>’)); 得到标题
登入後複製
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱門文章
兩個點博物館:邦格荒地地點指南
4 週前
By 尊渡假赌尊渡假赌尊渡假赌
擊敗分裂小說需要多長時間?
3 週前
By DDD
倉庫:如何復興隊友
3 週前
By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前
By 尊渡假赌尊渡假赌尊渡假赌
公眾號網頁更新緩存難題:如何避免版本更新後舊緩存影響用戶體驗?
3 週前
By 王林

熱門文章
兩個點博物館:邦格荒地地點指南
4 週前
By 尊渡假赌尊渡假赌尊渡假赌
擊敗分裂小說需要多長時間?
3 週前
By DDD
倉庫:如何復興隊友
3 週前
By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前
By 尊渡假赌尊渡假赌尊渡假赌
公眾號網頁更新緩存難題:如何避免版本更新後舊緩存影響用戶體驗?
3 週前
By 王林

熱門文章標籤

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)