php教程 php手册 php利用fopen实现简单的网页采集程序

php利用fopen实现简单的网页采集程序

Jun 02, 2016 am 09:13 AM

这个采集程序是一个非常简单的程序了,个人认为不适合于大量数据采集了单页还是没有问题了,因为fopen函数对于远程文件操作与多线程时是非常的不理想的,这个只是一个作者写的觉得好玩合出来了,代码如下:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

<?php

/**

 * 根据URL采集网页内容

 *

 * @param string $url 链接地址

 * @return string

 */

private function fetchbyurl($url) {

    $handle = fopen($url, &#39;r&#39;);

    $content = ";

while (!feof($handle)){

$content .= fgets($handle, 10000);

}

return $content;

//?$this->utf8_iconv($content):";

}

/*获取所有匹配的内容

 * @param string $str 内容

 * @param string $start 起始匹配

 * @param string $end 中止匹配

 * @return array

*/

private function utf8_iconv($content) {

    return iconv(&#39;GBK&#39;, &#39;UTF-8&#39;, $content);

}

private function strCutAll($str, $start, $end) {

    $content = explode($start, $str);

    $matchs = array();

    $sum = count($content);

    for ($i = 1; $i < $sum; $i++) {

        $tmp = explode($end, $content[$i]);

        $matchs[] = $tmp[0];

        unset($tmp);

    }

    return $matchs;

}

/*获取第一个匹配的内容

 * @param string $str 内容

 * @param string $start 起始匹配

 * @param string $end 中止匹配

 * @return string

*/

private function strCut($str, $start, $end) {

    $content = strstr($str, $start);

    $content = substr($content, strlen($start) , strpos($content, $end) - strlen($start));

    return $content;

}

?>

로그인 후 복사

1

2

3

4

5

6

7

8

/*采集程序*/

header("content-Type: text/html; charset=utf-8");

//$nr = file_get_contents(‘/webback/php/php-yi-ju-hua-hou-men-zhuan’);

$nr = $this->fetchbyurl(‘/webback/php/php-yi-ju-hua-hou-men-zhuan’);

//推荐,还可以用curl dump($this->strCut($nr,’<div class="context">’,&#39;<div class="betterrelated">’));

//得到内容。需要进一步过滤用(preg_match_all)

dump($this->strCutAll($nr,’<title>’,&#39;</title>’));

得到标题

로그인 후 복사


본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

뜨거운 기사 태그

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)