ウェブ クローラーは、ウェブ スパイダーやウェブ ロボットとしても知られていますが、FOAF コミュニティではウェブ チェイサーとしてより一般的に知られています。これらは、特定のルールまたはスクリプトに従って World Wide Web 情報を自動的にキャプチャするプログラムであり、その他のルールには従わないものもあります。一般的に使用される名前には、アリ、自動インデクサ、エミュレータ、ワームなどがあります。
ほとんどのクローラーは、「リクエストの送信 - ページの取得 - ページの解析 - コンテンツの抽出と保存」というプロセスに従います。これは実際にもシミュレートされています。ブラウザを使用して Web ページの情報を取得するプロセス。
クローラは簡単に言うと検出機械で、人間の行動を模倣してさまざまなWebサイトにアクセスし、ボタンをクリックしたり、データを確認したり、見た情報を記憶したりするのが基本的な動作です。建物の周りを休むことなく這う虫のように。
簡単に想像してみてください。すべてのクローラーはあなたの「クローン」です。孫悟空が毛束を抜き、猿の群れを吹き飛ばしたように。
私たちが毎日使っているBaiduは、実際にこの種のクローラー技術を使用しています。毎日、無数のクローラーをさまざまなWebサイトに放ち、その情報を取得し、その後、薄化粧をして、あなたがそれを取得するのを待つために列に並んでいます。 。
関連する推奨事項: 「Python クローラーとは何ですか? Python がクローラーと呼ばれるのはなぜですか?」
以上がクローラーとは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。