Web クローラー技術とは何を意味しますか?-よくある問題-php.cn

Web クローラー技術とは何を意味しますか?

烟雨青岚

リリース： 2020-07-08 13:27:25

オリジナル

14193 人が閲覧しました

Web クローラー技術とは、一定のルールに従って World Wide Web の情報を自動的に取得する技術を指します。 Web クローラーは、Web スパイダーや Web ロボットとも呼ばれます。FOAF コミュニティでは、Web ページチェイサーとしてよく知られています。その他のあまり一般的ではない名前には、アリ、自動インデックス作成、シミュレーションプログラム、またはワームなどがあります。

Web クローラー技術とは何を意味しますか?

#Web クローラー技術とは、特定のルールに従って World Wide Web の情報を自動的に取得する技術を指します

Web クローラー (Web スパイダー、Web ロボット、FOAF コミュニティでは Web チェイサーとも呼ばれます) は、特定のルールに従って World Wide Web 情報を自動的にクロールするプログラムまたはスクリプトです。その他のあまり一般的ではない名前には、アリ、自動インデクサ、エミュレータ、またはワームなどがあります。

クロールターゲットの説明と定義は、Web ページ分析アルゴリズムと URL 検索戦略を策定する方法を決定するための基礎となります。 Web ページ分析アルゴリズムと候補 URL ソートアルゴリズムは、検索エンジンが提供するサービス形式とクローラの Web ページのクローリング動作を決定する鍵となります。これら 2 つの部分のアルゴリズムは密接に関連しています。

クローリングターゲットに焦点を当てた既存のクローラの説明は、ターゲット Web ページの特性に基づくもの、ターゲットデータパターンに基づくもの、およびドメインの概念に基づくものという 3 つのタイプに分類できます。

ターゲット Web ページの特性に基づく

ターゲット Web ページの特性に基づいてクローラによってキャプチャ、保存、インデックス付けされるオブジェクトは、通常、Web サイトまたは Web です。ページ。シードサンプルの取得方法に応じて、次のように分割できます:

(1) 事前に指定された初期クローリングシードサンプル;

(2) 事前に指定された Web ページ分類ディレクトリと対応する分類ディレクトリへ Yahoo!分類構造などのシードサンプル;

(3) ユーザーの行動によって決まるキャッチ対象サンプルを次のように分割:

(a) アノテーションを表示するキャッチユーザーの閲覧中にサンプルを取得します;

(b) ユーザーログマイニングを通じてアクセスパターンと関連サンプルを取得します。

このうち、ウェブページの特性とは、ウェブページのコンテンツの特性やウェブページのリンク構造の特性などです。

ターゲットデータパターンに基づく

ターゲットデータパターンに基づくクローラは、Web ページ上のデータをターゲットにします。キャプチャされたデータは通常、特定のパターンに準拠する必要があります。または、ターゲットデータスキーマに変換またはマッピングすることもできます。

ドメインの概念に基づく