Heim > Backend-Entwicklung > PHP-Tutorial > 这个有关问题有点难,curl抓取不到页面

这个有关问题有点难,curl抓取不到页面

WBOY
Freigeben: 2016-06-13 12:17:42
Original
1293 Leute haben es durchsucht

这个问题有点难,curl抓取不到页面。

本帖最后由 xroha 于 2015-03-07 15:57:23 编辑 百度经验里的url,如:http://jingyan.baidu.com/article/e2284b2b24eeb2e2e6118dfd.html

直接看页面源代码,是有文章数据。
但是用curl .都无法正常获取文章内容。
这是为什么?已经伪造了IP,来路,cookie等,但还是抓取不到。
注意:在本地可以抓取,但是上传到服务器就不行了,
测试了三个服务器,SAE,阿里云,商务中国的空间,都无法获取。
百度是通过什么防止抓取数据的?怎么破解?

以下是代码:
<br />function fcontents( $url, $timeout = 5, $referer = "" ){<br />    $t = parse_url($url);<br />    $ch = curl_init();<br />    $header = array (<br />        'User-Agent: Mozilla/5.0 (Windows NT 5.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.1.1916.153 Safari/537.36','X-FORWARDED-FOR:154.135.25.15', 'CLIENT-IP:154.135.25.15'<br />    );<br />    $cookie_jar = dirname(__FILE__)."/jy.cookie";<br />    curl_setopt($ch, CURLOPT_URL, $url);<br />    curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);<br />    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);<br />    curl_setopt($ch, CURLOPT_HTTPHEADER, $header);<br />    curl_setopt($ch, CURLOPT_REFERER, "http://$t[host]/");   //构造来路 <br />    curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_jar);<br />    curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_jar);<br />    curl_setopt($ch, CURLOPT_HEADER, 0);<br />    $result = curl_exec($ch);<br />    curl_close($ch);<br />    return $result;<br />}<br />
Nach dem Login kopieren



------解决思路----------------------
他们都支持 curl 吗?
------解决思路----------------------
百度感知到你的IP访问频率很可疑
要么就是有复杂的cookie验证流程
------解决思路----------------------
1.如果本地可以,服务器不行。程序是没有问题的。
2.SAE,阿里云,商务中国的空间
这些都支持curl吗,有试试采集其他地址吗?
3.有可能这段时间这些服务器都采集百度,所以被屏蔽掉了。
Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage