php を使用して Http リクエストを送信し、Web ページ データをキャプチャします
j2ee または Android 開発を行ったことがある人なら、多かれ少なかれ Apache の HttpClient クラス ライブラリを使用したことがあるはずです。このクラス ライブラリは、非常に強力なサーバー側 HTTP リクエスト操作を提供します。開発時に使用すると非常に便利です。
最近、PHP開発をしていると、サーバー側でhttpリクエストを送って、それを処理してクライアントに返すという作業もソケットを使えばそれほど面倒ではないかもしれません。 PHPのクラスライブラリにHttpClientのようなものがないか調べてみました。
Google で、PHP に本当にそのようなクラス ライブラリがあることを発見しました。名前は HTTPClient です。一見すると、何年も更新されておらず、機能が制限されていることがわかりました。ああ。そこで、別のクラス ライブラリである Snoopy を見つけました。このクラス ライブラリについてはあまり知りませんでしたが、オンラインでの反応が非常に良かったので、これを使用することにしました。その API の使用法は Apache の HttpClient とは大きく異なりますが、それでも非常に使いやすいです。また、ページ内のフォームのみを取得する、またはすべてのリンクを取得するなど、多くの特別な目的のメソッドが提供されます。
include 'Snoopy.class.php'; $snoopy = new Snoopy(); $snoopy->fetch("http://www.baidu.com"); echo $snoopy->results;
上記の数行のコードを使用すると、Baidu ページを簡単にクロールできます。
もちろん、投稿フォームを送信する必要がある場合は、submit メソッドを使用してデータを送信できます。
同時に、リクエストヘッダー、対応するヘッダー、および Cookie 関連の操作関数も渡します。これは非常に強力です。
include "Snoopy.class.php"; $snoopy = new Snoopy(); $snoopy->proxy_host = "http://www.baidu.cn"; $snoopy->proxy_port = "80"; $snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)"; $snoopy->referer = "http://www.4wei.cn"; $snoopy->cookies["SessionID"] = '238472834723489'; $snoopy->cookies["favoriteColor"] = "RED"; $snoopy->rawheaders["Pragma"] = "no-cache"; $snoopy->maxredirs = 2; $snoopy->offsiteok = false; $snoopy->expandlinks = false; $snoopy->user = "joe"; $snoopy->pass = "bloe"; if($snoopy->fetchtext("http://www.baidu.cn")) { echo "<PRE>" . htmlspecialchars($snoopy->results) . "\n"; } else { echo "error fetching document: " . $snoopy->error . "\n"; }
この時点では、snoopy はページをクロールして戻すだけです。クロールされたページからデータを抽出したい場合は、あまり役に立ちません。ここで、php が HTML を解析するためのもう 1 つの優れたツールである phpQuery を見つけました。このツールが提供する操作方法は jquery とほぼ同じで、jquery に慣れている子供にとっては非常に簡単に使用できるはずです。 phpquery、さらには phpQuery ドキュメントはもう必要ありません..
Snoopy+PhpQuery を使用すると、Web ページのクローリングとデータ分析を簡単に実現できます。私も最近この分野で必要になり、Java で多くのことができることがわかりました。 . PHP でも同じことができます。
興味のある学生は、これらを使用して簡単な Web クローラーを作成してみることもできます。