インターネットの急速な発展に伴い、この時代にはますます多くのデータが氾濫しています。データの取得と処理は私たちの生活に欠かせないものとなり、時代の要請に応じてクローラーも登場しました。
多くの言語でクロールできますが、python に基づくクローラーはより簡潔で便利です。クローラーも Python 言語の重要な部分になっています。
この記事では、クローラーとは何か、クローラーの基本的なプロセスについて説明します。次号では、クローラーの基本的なプロセスであるリクエストとレスポンスについてさらに理解します。
#クローラーとは何ですか?
クローラーとはWebクローラーのことで、英語ではWeb Spiderです。翻訳すると、インターネット上を這う蜘蛛という意味ですが、インターネットを大きな巣とみなすと、クローラーとは大きな巣の上を這い回る蜘蛛で、欲しい食べ物に出会うとそれを捕食します。
ブラウザに URL を入力し、Enter キーを押すと、Web サイトのページ情報が表示されます。これは、ブラウザが Web サイトのサーバーを要求し、ネットワーク リソースを取得するときです。この場合、クローラはブラウザをシミュレートしてリクエストを送信し、HTML コードを取得することと同じになります。通常、HTML コードにはタグとテキスト情報が含まれており、そこから必要な情報を抽出します。
通常、クローラーは Web サイトの特定のページから開始し、このページのコンテンツをクロールし、Web ページ内の他のリンク アドレスを見つけて、このアドレスから次のページまでクロールしてクロールを続けます。 . 下に進み、情報を一括で取得します。すると、Web クローラーは Web ページを継続的にクロールして情報を取得するプログラムであることがわかります。
クローラの基本プロセス:
1. リクエストの開始:
ターゲットへの開始HTTP ライブラリを介してサイトに送信します。リクエスト、つまりリクエストを送信します。リクエストには追加のヘッダーやその他の情報を含めることができ、サーバーの応答を待ちます。このリクエストのプロセスは、ブラウザを開いてブラウザのアドレス バーに URL: www.baidu.com を入力し、[Enter] をクリックするようなものです。このプロセスは、実際には、ブラウザが閲覧クライアントとして機能し、サーバーにリクエストを送信するのと同等です。
2. 応答内容の取得:
サーバーが正常に応答できれば、応答を取得します。応答の内容が取得する内容です。種類には HTML が含まれる場合があります。 Json 文字列、バイナリ データ (写真、ビデオなど) およびその他のタイプ。このプロセスでは、サーバーがクライアントのリクエストを受信し、ブラウザーに送信された Web ページの HTML ファイルを解析します。
3. コンテンツの解析:
取得されたコンテンツは HTML である可能性があり、正規表現と Web ページ解析ライブラリを使用して解析できます。これは Json である場合もあり、Json オブジェクト解析に直接変換できます。これは、保存またはさらに処理できるバイナリ データである場合があります。このステップは、ブラウザがサーバー側のファイルをローカルで取得し、解釈して表示することに相当します。
4. データの保存:
保存方法は、データをテキストとして保存するか、データベースに保存するか、jpg、mp4 などの特定の形式のファイルとして保存することができます。これは、Web を閲覧するときに Web ページ上の写真やビデオをダウンロードすることに相当します。
以上がクローラーとは何か、およびクローラーの基本プロセスの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。