Curl は強力だと主張していますが、Huaban.com のホームページを取得しようとすると、どうやっても成功しません。解決してください。

WBOY
リリース: 2016-06-13 13:26:01
オリジナル
993 人が閲覧しました

Curl は強力であると主張していますが、Huaban.com のホームページを取得しようとしても成功しません。解決してください。 ! ! ! ! ! !
私は、curl を使用してページをキャプチャしていました。これは非常に便利で、何度も試行してもうまくいきましたが、Huaban.com のホームページを取得するという一見単純な操作中に、成功しないことがわかりました。

基本的なコードは次のとおりです:
$ch =curl_init();
curl_setopt($ch,CURLOPT_URL, 'http://huaban.com/');
//スパイダーをシミュレートします
//curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (互換性; Googlebot/2.​​1; +http://www.google.com/bot.html)');
// スパイダーをシミュレートします通常のブラウザ
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (互換; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727)');
//必要ありませんログインする必要がないため、Cookie を使用します。ホームページに戻るだけです
//curl_setopt($ch, CURLOPT_USERAGENT, '');
//実際には、ソースを無視して直接入力をシミュレートすることもできますアドレス
curl_setopt($ch, CURLOPT_REFERER, 'http://huaban.com/');
//curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
//curl_setopt($ch, CURLOPT_HEADER, 0); //出力ヘッダー
curl_setopt( $ch, CURLOPT_RETURNTRANSFER, 0);
curl_exec($ch);

Cookie ヘッダー エージェントは繰り返し実行しましたが、ブラウザーが開いたものと同じものを返すことはできず、file_get_contents('http://huaban.com/') を試しても無駄でした。 返されるコンテンツのほとんどは js コードですが、以前にクロールに成功したページにはさまざまなサイズの Web サイトと js が含まれており、リモート クロールと表示には影響しません。 1 日試してみてもわかりませんでした。csdn qq グループでも議論しましたが、curl では js を実行できない可能性があるとのことです。 しかし、今はどの Web サイトに JS コードが含まれていないのでしょうか? 以前にクロールされた Web サイトには JS コードが含まれているものもたくさんあります。どれも失敗しませんでした。 。

本当に解決方法が分からないので、この質問を放棄し、専門家の回答を求めます。 カールが効かないのか、このサイトが異常すぎるのか、やり方が間違っているのか。 。 。 。 。


-----解決策---------このエレガントで小さな新鮮なウェブサイト、どうすればできるでしょうかJS なしでこの熾烈な競争市場で生き残れるでしょうか?

------解決策------------------このウェブサイトの特別な点は、その独自性です。コンテンツは js によって動的に生成され、js とバックエンド プログラムの間の対話を通じて新しいコンテンツが常に生成されます
したがって、curl でキャプチャされるのは、js の大部分である初期コードのみです。

------解決策------------------これは私が望んでいないデータですか?パケットをどのようにキャプチャするか知っています
{"フィルター":"ピン:カテゴリ:すべて","ピン":[{"ピンID":8447271,"ユーザーID":394332,"ボードID":1146189,"ファイルID":3483249,"ファイル":{"ファーム":"farm1","bucket":"hbimg","key":"a1524741e8fae0916ba04c8d231f8ad23173ddb5baeff-rNFCpP","type":"image/jpeg","width":440,"height":5779,"frames": 1},"media_type":0,"source":"weibo.com","link":"http://weibo.com/2134919185/yoVlDsGWs","raw_text":"小さな電球を大改造、あなたも作ってみましょう~","text_meta":{},"via":2,"via_user_id":0,"original":null,"created_at":1340276725,"like_count":0,"comment_count": 0 ,"repin_count":0,"is_private":0,"orig_source":"http://ww4.sinaimg.cn/bmiddle/7f404811jw1du5vv6dpnij.jpg","user":{"user_id":394332,"username" : "Havetogo","urlname":"shoji132136652610","created_at":1338984624,"avatar":{"id":3061779,"farm":"farm1","bucket":"hbimg","key": " 69d6d7842159946de9ca070c22da1714f259010afb4-WcVdOr","type":"image/jpeg","width":100,"height":100,"frames":1}},"board":{"board_id":1146189,"user_id" : 394332,"title":"イノベーションの力","description":"","category_id":null,"seq":6,"pin_count":1,"follow_count":0,"created_at":1340276719 ," updated_at":1340276725,"is_private":0}},{"pin_id":8447272,"user_id":444560,"board_id":1146190,"file_id":2064511,"file":{"ファーム":" farm1" ,"bucket":"hbimg","key":"aa4fab086fe5887299cf17df48a250f9df25e375c95b-M4izBs","type":"image/jpeg","width":440,"height":566,"frames":1}, "media_type ":0,"source":"weibo.com","link":"http://weibo.com/2596178104/ycTQfusRg","raw_text":"スミレの色の理由: #玉素知識普及# (61) 一般に、元のジェダイト鉱山には微量のマンガンが含まれていると考えられています。マンガンの量の違いや、鉄などの他の微量元素の浸透により、その紫の色もピンク紫などの異なる色合いになります。 、ナス紫、バスケット紫など。紫色のスミレには多くの種類があります。ジェダイト鉱石には確率論的なマンガンが含まれているため、紫ジェダイトの相対量は非常に少なく、植え付け水が良好であれば、 ","text_meta":{"tags ":

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート