ホームページ > バックエンド開発 > PHPチュートリアル > 良い手を探して、ブラウザをシミュレートして Web ページをクロールします

良い手を探して、ブラウザをシミュレートして Web ページをクロールします

WBOY
リリース: 2016-06-13 12:36:48
オリジナル
866 人が閲覧しました

Web ページをクロールするためのブラウザをシミュレートする専門家を求めています
たとえば、Web ページ http://map.sogou.com/api/ をクロールする場合、私が作成したプログラムは次のことはできません。 URL の後に「/」がない場合はキャプチャされますが、Web サイトがオンライン (http://tool.chinaz.com/Tools/PageCode.aspx) であれば、最後の「/」がなくてもクロールできます。 : http://map.sogou.com/api) 、彼の原理は何ですか?私のコードは以下に掲載されています。改善してください

<br />
<br />
function file_get($url){<br />
	 ob_start();<br />
	 $ch = curl_init();<br />
	 <br />
	 curl_setopt($ch, CURLOPT_COOKIEJAR, "./cookie.txt");<br />
	 curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; InfoPath.1; CIBA)");<br />
	curl_setopt($ch, CURLOPT_URL, $url);<br />
	 curl_setopt($ch, CURLOPT_HEADER, FALSE);<br />
	 curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE);<br />
	 curl_setopt($ch, CURLOPT_NOBODY, FALSE);<br />
<br />
	 curl_exec($ch);<br />
	 curl_close($ch);<br />
	 $content = ob_get_clean();<br />
	 <br />
	 <br />
<br />
	return $content;<br />
<br />
}<br />
ログイン後にコピー

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート