ホームページ > バックエンド開発 > PHPチュートリアル > Web クローリング: PHP で Web クローラーを実装する方法の概要、クローリング クローラー_PHP チュートリアル

Web クローリング: PHP で Web クローラーを実装する方法の概要、クローリング クローラー_PHP チュートリアル

WBOY
リリース: 2016-07-13 10:14:55
オリジナル
1205 人が閲覧しました

Web クローリング: PHP での Web クローリング、クローリング クローラーの実装方法の概要

出典: http://www.ido321.com/1158.html

特定の Web ページのコンテンツをキャプチャするには、指定されたノードを見つけた後、DOM ツリーを解析する必要があります。このプロセスは少し面倒です。 LZ は、一般的に使用され、実装が簡単な Web クローリング方法をいくつかまとめています。JQuery セレクターに慣れている場合、これらのフレームワークは非常に簡単です。

1. ガノン

プロジェクトアドレス: http://code.google.com/p/ganon/

ドキュメント: http://code.google.com/p/ganon/w/list

テスト: 私のWebサイトのトップページで、class属性値がfocusであるすべてのdiv要素を取得し、クラス値を出力します

リーリー

結果:

2.phpQuery

プロジェクトアドレス: http://code.google.com/p/phpquery/

ドキュメント: https://code.google.com/p/phpquery/wiki/Manual

テスト: 私のWebサイトのホームページにあるarticleタグ要素を取得し、その下のh2タグのHTML値を出力します

リーリー

結果:

3. Simple-HTML-Dom

プロジェクトのアドレス: http://simplehtmldom.sourceforge.net/
ドキュメント: http://simplehtmldom.sourceforge.net/manual.htm

テスト: 私のウェブサイトのトップページにあるすべてのリンクをクロールします

リーリー

結果: (スクリーンショットは一部です)

4. スヌーピー

プロジェクトアドレス: http://code.google.com/p/phpquery/

ドキュメント: http://code.google.com/p/phpquery/wiki/Manual

テスト: 私のウェブサイトのホームページをクロールします

リーリー

結果:

5. クローラーを手動で作成します

文章を書くスキルが優れている場合は、Web クローラーを手書きして Web ページをクロールできます。この方法を紹介する記事はインターネット上に無数にありますので、詳細は説明しません。さらに詳しく知りたい場合は、Baidu PHP Web ページをクロールしてください。

追記: リソースの共有

一般的なオープンソース クローラー プロジェクトについては、http://blog.chinaunix.net/uid-22414998-id-3774291.html をご覧ください。

次の記事: 義父の「ケツ論」




PHP Web クローラーは Web サイトのコンテンツの一部を収集します

オーナーさん、simple_html_dom クラスを使ってデータを収集することができます。具体的にはどうやって使うのですか? jquery を知っている人なら、読むだけで理解できると思います。幸運を。


クローラーは、検索のためにWebページのキーワードと要約をクロールします

strip_tags($string)


http://www.bkjia.com/PHPjc/907659.html

tru​​ehttp://www.bkjia.com/PHPjc/907659.html技術記事 Web クローリング: PHP が Web クローラーを実装する方法の概要。 クローラーのソース: http://www.ido321.com/1158.html Web ページのコンテンツをクロールするには、DOM ツリーを解析して指定されたコンテンツを見つける必要があります。 ..
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート