> 백엔드 개발 > PHP 튜토리얼 > 抓取url和网页内容

抓取url和网页内容

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
풀어 주다: 2016-06-23 14:38:32
원래의
867명이 탐색했습니다.

由于技术不够,整天在逛论坛。 看到许多关于抓取网页内容(file_get_contents)和抓取url(这个不知道用什么)对这个听感兴趣。望大神指点下这是怎么回事?最好能帮我整个源码嘎嘎。叫我参考下。


回复讨论(解决方案)

自己百度先吧

我用 php socket 和 curl写过真实的例子,至于 file_get_contents更简单了,原理都一样,你看以看看
不足之处请指点,
http://blog.csdn.net/zkg510168343/article/details/12996699
http://blog.csdn.net/zkg510168343/article/details/16983161

curl
手册里有例子,必须要看手册阿

百度一下,可以找到很多的。

百度 php  采集

baidu下 file_get_contents()和curl 抓取采集

$url='http://www.iheima.com/';
$con=file_get_contents($url);
if ($con){

preg_match_all('/

(.+).*

(.+)/isU', $con, $temp,PREG_SET_ORDER);
foreach ($temp as $key=> $v){
$title=$v[2];
$v_url=$v[1];
$des=$v[3];
$con_url=file_get_contents($v_url);
if ($con_url){
$tags='';
preg_match('/keywords" content="(.+)"/isU', $con_url,$tags);
$tags=trim($tags[1],',');

preg_match('/class="txs_Content".*>(.+)/isU', $con_url,$txt);
$txt=$txt[1];
}

}
} 够清楚了吧

有个开源的simple_html_dom
$html = file_get_html('http://www.baidu.com');
可以根据各种抓取,如id,css等方法抓取网页内容

관련 라벨:
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿