ホームページ バックエンド開発 PHPチュートリアル Curl は強力であると主張していますが、Huaban.com のホームページを取得しようとしても成功しません。解決してください。 ! ! ! ! ! !

Curl は強力であると主張していますが、Huaban.com のホームページを取得しようとしても成功しません。解決してください。 ! ! ! ! ! !

Jun 23, 2016 pm 02:21 PM

ページを取得するためにcurlを使用していましたが、これは非常に便利で、何度も試した結果うまくいきましたが、Huaban.comのホームページを取得するという一見単純な操作中に、それが成功しないことがわかりました。

基本的なコードは次のとおりです:
$ch =curl_init();
curl_setopt($ch,CURLOPT_URL, 'http://huaban.com/');
//スパイダーをシミュレートします
//curl_setopt($ch, CURLOPT_USERAGENT, ' Mozilla/5.0 (互換性; Googlebot/2.​​1; +http://www.google.com/bot.html)');
//通常のブラウザをシミュレートします
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0) (互換性; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727)');
//ログインせずにホームページに戻ることができるため、Cookie は必要ありません
//curl_setopt($ ch, CURLOPT_USERAGENT, '') ;
//実際には、ソースを無視してアドレスを直接入力することもできます
curl_setopt($ch, CURLOPT_REFERER, 'http://huaban.com/'); ($ch, CURLOPT_HTTPHEADER, $header);
//curl_setopt($ch, CURLOPT_HEADER, 0); // 出力ヘッダー
curl_exec($ch); );

さまざまな方法を繰り返し試しましたが、Cookie ヘッダー エージェントは、ブラウザーで開かれたような表示可能なページを返すことができず、file_get_contents('http://huaban.com/'); を試しても失敗しました。返されるコンテンツのほとんどは js コードですが、大小さまざまな Web サイトを含め、以前に正常にクロールされたページには js も含まれており、リモート クロールや表示には影響しません。 1 日試してみてもわかりませんでした。csdn qq グループでも議論しましたが、curl では js を実行できない可能性があるとのことです。しかし、現在 js コードが含まれていない Web サイトはどれですか? 以前にクロールされた Web サイトには js が含まれているものもたくさんあります。どれも失敗しませんでした。 。

解決方法が本当にわからないので、この質問を放棄して専門家の回答を求めます。 curlが動かないのか、このサイトが異常すぎるのか、やり方が間違っているのか。 。 。 。 。


ディスカッションへの返信 (解決策)


このようなエレガントで新鮮な Web サイトが、JS なしでこの熾烈な競争市場でどのように生き残ることができるでしょうか?

この Web サイトの特別な点は、そのコンテンツのほとんどが js によって動的に生成され、js とバックエンド プログラムの間の対話を通じて新しいコンテンツが常に生成されることです

したがって、curl でキャプチャされるのはその初期コードのみです。それは js の大部分です

この Web サイトの特別な点は、そのコンテンツのほとんどが js によって動的に生成されるということです
js とバックエンド プログラムの間の対話を通じて新しいコンテンツが常に生成されるということです

それで、curl で何がキャプチャされるのか。コードは JS の大きなセクションです


「JS はバックエンド プログラムと対話して新しいコンテンツを継続的に生成します」????
このプロセスはパケット キャプチャ プログラムを通じてキャプチャできると言われています。 ajax のコンテンツはキャプチャできますが、なぜキャプチャできないのでしょうか?
パケット キャプチャではアクセスが見つかりませんでした。当然のことながら、アクセス用のアドレスが必要です

これは必要なデータですか? パケットをどのようにキャプチャするかわかりません
{"filter":"pin:category:all","pins":[{"pin_id":8447271,"user_id":394332, " board_id":1146189,"file_id":3483249,"file":{"farm":"farm1","bucket":"hbimg","key":"a1524741e8fae0916ba04c8d231f8ad23173ddb5baeff-rNFCpP","type":"image/ jpeg ","幅":440,"高さ":5779,"フレーム":1},"メディアタイプ":0,"ソース":"weibo.com","リンク":"http://weibo.com / 2134919185/yoVlDsGWs","raw_text":"小さな電球の変形、あなたも作ることができます~","text_meta":{},"via":2,"via_user_id":0,"original": null," created_at":1340276725,"like_count":0,"comment_count":0,"repin_count":0,"is_private":0,"orig_source":"http://ww4.sinaimg.cn/bmiddle/7f404811jw1du5vv6dpnij .jpg" ,"user":{"user_id":394332,"username":"Havetogo","urlname":"shoji132136652610","created_at":1338984624,"avatar":{"id":3061779,"farm ":" farm1","bucket":"hbimg","key":"69d6d7842159946de9ca070c22da1714f259010afb4-WcVdOr","type":"image/jpeg","width":100,"height":100,"frames": 1}} ,"board":{"board_id":1146189,"user_id":394332,"title":"イノベーションの力","description":"","category_id":null,"seq":6, "pin_count ":1,"follow_count":0,"created_at":1340276719,"updated_at":1340276725,"is_private":0}},{"pin_id":8447272,"user_id":444560,"board_id":1146190 ," file_id":2064511,"file":{"farm":"farm1","bucket":"hbimg","key":"aa4fab086fe5887299cf17df48a250f9df25e375c95b-M4izBs","type":"image/jpeg","width ": 440,"高さ":566,"フレーム":1},"メディアタイプ":0,"ソース":"weibo.com","リンク":"http://weibo.com/2596178104/ycTQfusRg" ," raw_text":"スミレの色の理由: #京の知識普及# (61) マンガンの量と度合いから、元の翡翠鉱石に含まれる微量のマンガンが原因であると一般に考えられています。ジェダイト鉱石には確率論的な現象であるマンガンが含まれているため、その紫にはピンク紫、ナス紫、かご紫、多くの種類のスミレなど、さまざまな色合いがあります。 、紫翡翠の相対的な量は非常に少ないです。また、植栽の水が良い場合は、さらに少なくなるでしょう。","text_meta":{"tags":

....

私も同じ問題に遭遇しました。このページが送信後のデータをシミュレートできるかどうかわかりますか? アドレスは http://mixiaba.com/diy/iphoneok.asp?sid=null&pov=5 です

上の階でデータを送信しています。これは問題なく、実装も難しくありません。

しかし、肝心のホームページですが、データの送信はおろか、最も基本的なページすら開けず、投稿データのページも同様のようです。このウェブサイトは特別なプロセスを経ています。

パケットキャプチャはデータをキャプチャできますが、4階で提供されるデータはキャプチャできません。ブラウザで開くのとは効果が全く違います。データを投稿すると、このページは存在しないと直接返されます。

上の階では、qq スペース シミュレーションにデータを送信しています。これは問題なく、実装も難しくありません。

しかし、肝心のホームページですが、データの送信はおろか、最も基本的なページすら開けず、投稿データのページも同様のようです。このウェブサイトは特別なプロセスを経ています。

パケットキャプチャはデータをキャプチャできますが、4階で提供されるデータはキャプチャできますが、目に見えません。ブラウザで開くのとは効果が全く違います。データを投稿すると、このページは存在しないと直接返されます。

そのデータはホームページに表示されるコンテンツですか? 人々はデータを返し、その後、キャプチャされた HTML コードは何だと思いますか?

あなたが言ったように、上の階の人に聞きたいです。検索エンジンはまだスナップショットのコンテンツをキャプチャできないと言っています。Baidu、Google、Soso で花びらを検索して、静的な表示があるかどうかを確認できますか?どれもわかりやすく表示されています! ! ! !

ローカル ブラウザが表示される場合は、リモートから表示する方法があるはずです。

ブラウザ上でスクリーンショットを撮るのに技術的な問題はありません

わかりますか、検索エンジンはスクリーンショット、スナップショットはスクリーンショット、写真ですか?あなたのサイトに投稿して、私に知らせてください

検索エンジンがコンテンツをどのようにキャプチャするのか知りたいです 検索エンジンはコンテンツをキャプチャできるので、方法があるはずです

花びらのコードを注意深く見ていません。 、しかし、私が投稿したコンテンツはホームページのコンテンツであるはずです(それ以外の場合はそれを読む必要があります)。Baidu、Google などについては、基本的には私が言ったことと同じであるはずです。毎年多くの優秀な人材がいるのですか? プログラマーはクローラーを作成するのにもcurlを使用しているのでしょうか? そう思うと、私は何も言うことがありません

聞きたいのですが、上の階に行って、あなたの言ったことによると、検索エンジンはまだスナップショットのコンテンツをキャプチャできません。Baidu、Google、Soso で花びらを検索して、静的な表示があるかどうかを確認できますか。どれもわかりやすく表示されています! ! ! !

ローカル ブラウザが表示される場合は、リモートから表示する方法があるはずです。

元々は入って LM をプレイしたかったのですが…

さて、12 階について真剣に答えさせてください。
検索エンジンは、html/js/css/json のデータもキャプチャします。
4 階で提供されたものを含め、具体的には、ページはブラウザ側で分析することによって生成されます

Google がどのようにスナップショットを生成するかについては... Google は独自のブラウザを持っています。キャプチャされた html/js/css をページに解析するときに、何が問題になると思いますか。 ? ?

同様に、必要に応じて、キャプチャした js/html/css を使用してページを生成することもできますが、curl だけでは十分ではありません

すべてには常に解決策があり、大きな原則は役に立ちません。
あとはオンラインでログインするだけですが、データを送信することはできません

完了しました、皆さんありがとうございます

どうやって作成しましたか?私もあなたと同じ問題に遭遇しました、何が起こっていますか?

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

セッションのハイジャックはどのように機能し、どのようにPHPでそれを軽減できますか? セッションのハイジャックはどのように機能し、どのようにPHPでそれを軽減できますか? Apr 06, 2025 am 12:02 AM

セッションハイジャックは、次の手順で達成できます。1。セッションIDを取得します。2。セッションIDを使用します。3。セッションをアクティブに保ちます。 PHPでのセッションハイジャックを防ぐための方法には次のものが含まれます。1。セッション_regenerate_id()関数を使用して、セッションIDを再生します。2。データベースを介してストアセッションデータを3。

JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 Apr 05, 2025 am 12:04 AM

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

確固たる原則と、それらがPHP開発にどのように適用されるかを説明してください。 確固たる原則と、それらがPHP開発にどのように適用されるかを説明してください。 Apr 03, 2025 am 12:04 AM

PHP開発における固体原理の適用には、次のものが含まれます。1。単一責任原則(SRP):各クラスは1つの機能のみを担当します。 2。オープンおよびクローズ原理(OCP):変更は、変更ではなく拡張によって達成されます。 3。Lischの代替原則(LSP):サブクラスは、プログラムの精度に影響を与えることなく、基本クラスを置き換えることができます。 4。インターフェイス分離原理(ISP):依存関係や未使用の方法を避けるために、細粒インターフェイスを使用します。 5。依存関係の反転原理(DIP):高レベルのモジュールと低レベルのモジュールは抽象化に依存し、依存関係噴射を通じて実装されます。

phpstormでCLIモードをデバッグする方法は? phpstormでCLIモードをデバッグする方法は? Apr 01, 2025 pm 02:57 PM

phpstormでCLIモードをデバッグする方法は? PHPStormで開発するときは、PHPをコマンドラインインターフェイス(CLI)モードでデバッグする必要がある場合があります。

システムの再起動後にUnixSocketの権限を自動的に設定する方法は? システムの再起動後にUnixSocketの権限を自動的に設定する方法は? Mar 31, 2025 pm 11:54 PM

システムが再起動した後、UnixSocketの権限を自動的に設定する方法。システムが再起動するたびに、UnixSocketの許可を変更するために次のコマンドを実行する必要があります:sudo ...

PHPでの後期静的結合を説明します(静的::)。 PHPでの後期静的結合を説明します(静的::)。 Apr 03, 2025 am 12:04 AM

静的結合(静的::) PHPで後期静的結合(LSB)を実装し、クラスを定義するのではなく、静的コンテキストで呼び出しクラスを参照できるようにします。 1)解析プロセスは実行時に実行されます。2)継承関係のコールクラスを検索します。3)パフォーマンスオーバーヘッドをもたらす可能性があります。

PHPのCurlライブラリを使用してJSONデータを含むPOSTリクエストを送信する方法は? PHPのCurlライブラリを使用してJSONデータを含むPOSTリクエストを送信する方法は? Apr 01, 2025 pm 03:12 PM

PHP開発でPHPのCurlライブラリを使用してJSONデータを送信すると、外部APIと対話する必要があることがよくあります。一般的な方法の1つは、Curlライブラリを使用して投稿を送信することです。

See all articles