出典: http://www.ido321.com/1158.html
特定の Web ページのコンテンツをキャプチャするには、指定されたノードを見つけた後、DOM ツリーを解析する必要があります。このプロセスは少し面倒です。 LZ は、一般的に使用され、実装が簡単な Web クローリング方法をいくつかまとめています。JQuery セレクターに慣れている場合、これらのフレームワークは非常に簡単です。
1. ガノン
プロジェクトアドレス: http://code.google.com/p/ganon/
ドキュメント: http://code.google.com/p/ganon/w/list
テスト: 私のWebサイトのトップページで、class属性値がfocusであるすべてのdiv要素を取得し、クラス値を出力します
リーリー
結果:
2.phpQuery
プロジェクトアドレス: http://code.google.com/p/phpquery/
ドキュメント: https://code.google.com/p/phpquery/wiki/Manual
テスト: 私のWebサイトのホームページにあるarticleタグ要素を取得し、その下のh2タグのHTML値を出力します
リーリー
結果:
3. Simple-HTML-Dom
プロジェクトのアドレス: http://simplehtmldom.sourceforge.net/
ドキュメント: http://simplehtmldom.sourceforge.net/manual.htm
テスト: 私のウェブサイトのトップページにあるすべてのリンクをクロールします
リーリー
結果: (スクリーンショットは一部です)
4. スヌーピー
プロジェクトアドレス: http://code.google.com/p/phpquery/
ドキュメント: http://code.google.com/p/phpquery/wiki/Manual
テスト: 私のウェブサイトのホームページをクロールします
リーリー
結果:
5. クローラーを手動で作成します
文章を書くスキルが優れている場合は、Web クローラーを手書きして Web ページをクロールできます。この方法を紹介する記事はインターネット上に無数にありますので、詳細は説明しません。さらに詳しく知りたい場合は、Baidu PHP Web ページをクロールしてください。
追記: リソースの共有
一般的なオープンソース クローラー プロジェクトについては、http://blog.chinaunix.net/uid-22414998-id-3774291.html をご覧ください。
次の記事: 義父の「ケツ論」
http://www.bkjia.com/PHPjc/907659.html