PHP抓取及分析网页的方法详解_PHP
本文实例讲述了PHP抓取及分析网页的方法。分享给大家供大家参考,具体如下:
抓取和分析一个文件是非常简单的事。这个教程将通过一个例子带领你一步一步地去实现它。让我们开始吧!
首先,我首必须决定我们将抓取的URL地址。可以通过在脚本中设定或通过$QUERY_STRING传递。为了简单起见,让我们将变量直接设在脚本中。
<?php $url = 'http://www.php.net'; ?>
第二步,我们抓取指定文件,并且通过file()函数将它存在一个数组里。
<?php $url = 'http://www.php.net'; $lines_array = file($url); ?>
好了,现在在数组里已经有了文件了。但是,我们想分析的文本可能不全在一行里面。为了解决这个文件,我们可以简单地将数组$lines_array转化成一个字符串。我们可以使用implode(x,y)函数来实现它。如果在后面你想用explode(将字符串变量数组),将x设成"|"或"!"或其它类似的分隔符可能会更好。但是出于我们的目的,最好将x设成空格。y是另一个必要的参数,因为它是你想用implode()处理的数组。
<?php $url = 'http://www.php.net'; $lines_array = file($url); $lines_string = implode('', $lines_array); ?>
现在,抓取工作就做完了,下面该进行分析了。出于这个例子的目的,我们想得到在
到之间的所有东西。为了分析出字符串,我们还需要叫做正规表达式的东西。
<?php $url = 'http://www.php.net'; $lines_array = file($url); $lines_string = implode('', $lines_array); eregi("<head>(.*)</head>", $lines_string, $head); ?>
让我们看一下代码。正如你所见,eregi()函数按下面的格式执行:
eregi("<head>(.*)</head>", $lines_string, $head);
"(.*)"表示所有东西,可以解释为,"分析在
和间的所以东西"。$lines_string是我们正在分析的字符串,$head是分析后的结果存放的数组。最后,我们可以输数据。因为仅在
和间存在一个实例,我们可以安全的假设数组中仅存在着一个元素,而且就是我们想要的。让我们把它打印出来吧。
<?php $url = 'http://www.php.net'; $lines_array = file($url); $lines_string = implode('', $lines_array); eregi("<head>(.*)</head>", $lines_string, $head); echo $head[0]; ?>
这就是全部的代码了。
<?php //获取所有内容url保存到文件 function get_index ( $save_file , $prefix = "index_" ){ $count = 68 ; $i = 1 ; if ( file_exists ( $save_file )) @ unlink ( $save_file ); $fp = fopen ( $save_file , "a+" ) or die( "Open " . $save_file . " failed" ); while( $i < $count ){ $url = $prefix . $i . ".htm" ; echo "Get " . $url . "..." ; $url_str = get_content_url ( get_url ( $url )); echo " OK/n" ; fwrite ( $fp , $url_str ); ++ $i ; } fclose ( $fp ); } //获取目标多媒体对象 function get_object ( $url_file , $save_file , $split = "|--:**:--|" ){ if (! file_exists ( $url_file )) die( $url_file . " not exist" ); $file_arr = file ( $url_file ); if (! is_array ( $file_arr ) || empty( $file_arr )) die( $url_file . " not content" ); $url_arr = array_unique ( $file_arr ); if ( file_exists ( $save_file )) @ unlink ( $save_file ); $fp = fopen ( $save_file , "a+" ) or die( "Open save file " . $save_file . " failed" ); foreach( $url_arr as $url ){ if (empty( $url )) continue; echo "Get " . $url . "..." ; $html_str = get_url ( $url ); echo $html_str ; echo $url ; exit; $obj_str = get_content_object ( $html_str ); echo " OK/n" ; fwrite ( $fp , $obj_str ); } fclose ( $fp ); } //遍历目录获取文件内容 function get_dir ( $save_file , $dir ){ $dp = opendir ( $dir ); if ( file_exists ( $save_file )) @ unlink ( $save_file ); $fp = fopen ( $save_file , "a+" ) or die( "Open save file " . $save_file . " failed" ); while(( $file = readdir ( $dp )) != false ){ if ( $file != "." && $file != ".." ){ echo "Read file " . $file . "..." ; $file_content = file_get_contents ( $dir . $file ); $obj_str = get_content_object ( $file_content ); echo " OK/n" ; fwrite ( $fp , $obj_str ); } } fclose ( $fp ); } //获取指定url内容 function get_url ( $url ){ $reg = '/^http:////[^//].+$/' ; if (! preg_match ( $reg , $url )) die( $url . " invalid" ); $fp = fopen ( $url , "r" ) or die( "Open url: " . $url . " failed." ); while( $fc = fread ( $fp , 8192 )){ $content .= $fc ; } fclose ( $fp ); if (empty( $content )){ die( "Get url: " . $url . " content failed." ); } return $content ; } //使用socket获取指定网页 function get_content_by_socket ( $url , $host ){ $fp = fsockopen ( $host , 80 ) or die( "Open " . $url . " failed" ); $header = "GET /" . $url . " HTTP/1.1/r/n" ; $header .= "Accept: */*/r/n" ; $header .= "Accept-Language: zh-cn/r/n" ; $header .= "Accept-Encoding: gzip, deflate/r/n" ; $header .= "User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; InfoPath.1; .NET CLR 2.0.50727)/r/n" ; $header .= "Host: " . $host . "/r/n" ; $header .= "Connection: Keep-Alive/r/n" ; //$header .= "Cookie: cnzz02=2; rtime=1; ltime=1148456424859; cnzz_eid=56601755-/r/n/r/n"; $header .= "Connection: Close/r/n/r/n" ; fwrite ( $fp , $header ); while (! feof ( $fp )) { $contents .= fgets ( $fp , 8192 ); } fclose ( $fp ); return $contents ; } //获取指定内容里的url function get_content_url ( $host_url , $file_contents ){ //$reg = '/^(#|<a href="http://lib.csdn.net/base/18" class='replace_word' title="JavaScript知识库" target='_blank' style='color:#df3434; font-weight:bold;'>JavaScript</a>.*?|ftp:////.+|http:////.+|.*?href.*?|play.*?|index.*?|.*?asp)+$/i'; //$reg = '/^(down.*?/.html|/d+_/d+/.htm.*?)$/i'; $rex = "/([hH][rR][eE][Ff])/s*=/s*['/"]*([^>'/"/s]+)[/"'>]*/s*/i" ; $reg = '/^(down.*?/.html)$/i' ; preg_match_all ( $rex , $file_contents , $r ); $result = "" ; //array(); foreach( $r as $c ){ if ( is_array ( $c )){ foreach( $c as $d ){ if ( preg_match ( $reg , $d )){ $result .= $host_url . $d . "/n" ; } } } } return $result ; } //获取指定内容中的多媒体文件 function get_content_object ( $str , $split = "|--:**:--|" ){ $regx = "/href/s*=/s*['/"]*([^>'/"/s]+)[/"'>]*/s*(.*?<//b>)/i" ; preg_match_all ( $regx , $str , $result ); if ( count ( $result ) == 3 ){ $result [ 2 ] = str_replace ( "多媒体: " , "" , $result [ 2 ]); $result [ 2 ] = str_replace ( " " , "" , $result [ 2 ]); $result = $result [ 1 ][ 0 ] . $split . $result [ 2 ][ 0 ] . "/n" ; } return $result ; } ?>
更多关于PHP相关内容感兴趣的读者可查看本站专题:《php正则表达式用法总结》、《PHP+ajax技巧与应用小结》、《PHP运算与运算符用法总结》、《PHP网络编程技巧总结》、《PHP基本语法入门教程》、《php操作office文档技巧总结(包括word,excel,access,ppt)》、《php日期与时间用法总结》、《php面向对象程序设计入门教程》、《php字符串(string)用法总结》、《php+mysql数据库操作入门教程》及《php常见数据库操作技巧汇总》
希望本文所述对大家PHP程序设计有所帮助。

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











PHP 8.4는 상당한 양의 기능 중단 및 제거를 통해 몇 가지 새로운 기능, 보안 개선 및 성능 개선을 제공합니다. 이 가이드에서는 Ubuntu, Debian 또는 해당 파생 제품에서 PHP 8.4를 설치하거나 PHP 8.4로 업그레이드하는 방법을 설명합니다.

CakePHP에서 데이터베이스 작업은 매우 쉽습니다. 이번 장에서는 CRUD(생성, 읽기, 업데이트, 삭제) 작업을 이해하겠습니다.

CakePHP는 PHP용 오픈 소스 프레임워크입니다. 이는 애플리케이션을 훨씬 쉽게 개발, 배포 및 유지 관리할 수 있도록 하기 위한 것입니다. CakePHP는 강력하고 이해하기 쉬운 MVC와 유사한 아키텍처를 기반으로 합니다. 모델, 뷰 및 컨트롤러 gu

CakePHP에 로그인하는 것은 매우 쉬운 작업입니다. 한 가지 기능만 사용하면 됩니다. cronjob과 같은 백그라운드 프로세스에 대해 오류, 예외, 사용자 활동, 사용자가 취한 조치를 기록할 수 있습니다. CakePHP에 데이터를 기록하는 것은 쉽습니다. log() 함수는 다음과 같습니다.

VS Code라고도 알려진 Visual Studio Code는 모든 주요 운영 체제에서 사용할 수 있는 무료 소스 코드 편집기 또는 통합 개발 환경(IDE)입니다. 다양한 프로그래밍 언어에 대한 대규모 확장 모음을 통해 VS Code는
