クローラーの仕組み-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

クローラーの仕組み

迷茫

Mar 25, 2017 pm 04:58 PM

クローラーのしくみ

ウェブクローラー、あるいはウェブスパイダーとは、とても鮮やかな名前です。インターネットを蜘蛛の巣に例えると、蜘蛛は巣の上を這っている蜘蛛です。 Web スパイダーは、リンクアドレスを通じて Web ページを検索します。 Web サイトの特定のページ (通常はホームページ) から開始して、Web ページのコンテンツを読み、Web ページ内の他のリンクアドレスを見つけ、次にこれらのリンクアドレスを通じて次の Web ページを見つけます。このサイクルは、この Web サイトのすべてのリンクが完了するまで続きます。すべての Web ページがクロールされるまで。インターネット全体が Web サイトとみなされる場合、Web スパイダーはこの原理を使用して、インターネット上のすべての Web ページをクロールできます。このように、Web クローラーはクローラー、Web ページを巡回するプログラムです。 Web クローラーの基本的な操作は、Web ページをクロールすることです。では、どうすれば希望通りのページを取得できるでしょうか? URLから始めましょう。

Web ページをクロールするプロセスは、実際には、読者が通常 IE ブラウザを使用して Web ページを閲覧する方法と同じです。たとえば、ブラウザのアドレスバーにアドレス www.baidu.com を入力します。 Web ページを開くプロセスは、実際にはブラウザが閲覧「クライアント」としてサーバーにリクエストを送信し、サーバー側のファイルをローカルで「取得」し、それらを解釈して表示するというものです。 HTML は、タグを使用してコンテンツをマークし、解析して区別するマークアップ言語です。ブラウザの機能は、取得した HTML コードを解析し、元のコードを直接表示される Web サイトのページに変換することです。 URLとは簡単に言えば、ブラウザに入力されたURLの文字列です。 URL を理解する前に、まず URI の概念を理解する必要があります。

URIとは何ですか？

HTMLドキュメント、画像、ビデオクリップ、プログラムなど、Web上で利用可能なすべてのリソースは、Universal Resource Identifier（URI）によって見つけられます。

URI は通常 3 つの部分で構成されます:

リソースにアクセスするための名前付けメカニズム、

リソースを保存するためのホスト名、
パスで表されるリソース自体の名前。
これは、HTTP プロトコル経由でアクセスできるリソースです。
ホスト上にあり、パス "/html/html40" 経由でアクセスされます
。
2. URL の理解と例

URL は URI のサブセットです。 Uniform Resource Locatorの略で、「統一リソースロケーター」と訳されます。平たく言えば、URL はインターネット上の情報リソースを記述する文字列であり、主にさまざまな WWW クライアントプログラムやサーバープログラムで使用されます。 URL を使用すると、ファイル、サーバーアドレス、ディレクトリなどのさまざまな情報リソースを統一された形式で記述することができます。 URL の一般的な形式は次のとおりです (角括弧 [] が付いているものはオプションです):

　　protocol :// hostname[:port] / path / [;parameters][?query]#fragment

ログイン後にコピー

URL の形式は 3 つの部分で構成されます: 最初の部分はプロトコル (またはサービスメソッド) です。

2 番目の部分は、リソースが保存されているホストの IP アドレスです (ポート番号を含む場合もあります)。
3 番目の部分は、ディレクトリやファイル名などのホストリソースの特定のアドレスです。
前半と後半は「://」記号で区切られ、後半と後半は「/」記号で区切られています。第 1 部と第 2 部は必須ですが、第 3 部は省略できる場合もあります。

3. URLとURIの単純な比較

URIはURLの下位レベルの抽象化であり、文字列テキストの標準です。つまり、URI は親クラスに属し、URL は URI のサブクラスに属します。 URL は URI のサブセットです。 URI の定義は次のとおりです。Uniform Resource Identifier。URL の定義は次のとおりです。Uniform Resource Locator。 2 つの違いは、URI がリクエストサーバーへのパスを表し、そのようなリソースを定義することです。 URL には、リソースへのアクセス方法 (http://) も記載されています。

URL の小さな例を 2 つ見てみましょう。

1. HTTP プロトコルの URL の例: ハイパーテキスト転送プロトコル HTTP を使用して、ハイパーテキスト情報サービスのリソースを提供します。

ハイパーテキストファイル (ファイルタイプは .html) は、ディレクトリ /channel にある welcome.htm です。

これは中国人民日報のコンピューターです。

コンピューターのドメイン名は www.rol.cn.Net です。

ハイパーテキストファイル (ファイルタイプは .html) は、/talk ディレクトリ内の talk1.htm です。

赤いチャットルームのアドレスです。ここから赤いチャットルームの最初の部屋に入ることができます。

2．ファイル URL

URL を使用してファイルを表す場合、サーバーモードはファイルで表され、その後にホスト IP アドレス、ファイルアクセスパス (つまり、ディレクトリ)、ファイル名などの情報が続きます。

ディレクトリ名やファイル名は省略できる場合もありますが、「/」記号は省略できません。

クローラーの主な処理オブジェクトは URL であり、URL アドレスに基づいて必要なファイルのコンテンツを取得し、それをさらに処理します。

したがって、Web クローラーを理解するには、URL を正確に理解することが重要です。

以上がクローラーの仕組みの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7569

CakePHP チュートリアル

1386

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

107

Related knowledge

PHPおよびPython：コードの例と比較 Apr 15, 2025 am 12:07 AM

PHPとPythonには独自の利点と短所があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1.PHPは、大規模なWebアプリケーションの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンスと機械学習の分野を支配しています。

Python vs. JavaScript：コミュニティ、ライブラリ、リソース Apr 15, 2025 am 12:16 AM

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1）Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2）Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3）どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

Dockerの原則の詳細な説明 Apr 14, 2025 pm 11:57 PM

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム（UnionFS）は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

Visual StudioコードはPythonで使用できますか Apr 15, 2025 pm 08:18 PM

VSコードはPythonの書き込みに使用でき、Pythonアプリケーションを開発するための理想的なツールになる多くの機能を提供できます。ユーザーは以下を可能にします。Python拡張機能をインストールして、コードの完了、構文の強調表示、デバッグなどの関数を取得できます。デバッガーを使用して、コードを段階的に追跡し、エラーを見つけて修正します。バージョンコントロールのためにGitを統合します。コードフォーマットツールを使用して、コードの一貫性を維持します。糸くずツールを使用して、事前に潜在的な問題を発見します。

ターミナルVSCODEでプログラムを実行する方法 Apr 15, 2025 pm 06:42 PM

VSコードでは、次の手順を通じて端末でプログラムを実行できます。コードを準備し、統合端子を開き、コードディレクトリが端末作業ディレクトリと一致していることを確認します。プログラミング言語（pythonのpython your_file_name.pyなど）に従って実行コマンドを選択して、それが正常に実行されるかどうかを確認し、エラーを解決します。デバッガーを使用して、デバッグ効率を向上させます。

VSCODE拡張機能は悪意がありますか？ Apr 15, 2025 pm 07:57 PM

VSコード拡張機能は、悪意のあるコードの隠れ、脆弱性の活用、合法的な拡張機能としての自慰行為など、悪意のあるリスクを引き起こします。悪意のある拡張機能を識別する方法には、パブリッシャーのチェック、コメントの読み取り、コードのチェック、およびインストールに注意してください。セキュリティ対策には、セキュリティ認識、良好な習慣、定期的な更新、ウイルス対策ソフトウェアも含まれます。

Python：自動化、スクリプト、およびタスク管理 Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

Windows 8でコードを実行できます Apr 15, 2025 pm 07:24 PM

VSコードはWindows 8で実行できますが、エクスペリエンスは大きくない場合があります。まず、システムが最新のパッチに更新されていることを確認してから、システムアーキテクチャに一致するVSコードインストールパッケージをダウンロードして、プロンプトとしてインストールします。インストール後、一部の拡張機能はWindows 8と互換性があり、代替拡張機能を探すか、仮想マシンで新しいWindowsシステムを使用する必要があることに注意してください。必要な拡張機能をインストールして、適切に動作するかどうかを確認します。 Windows 8ではVSコードは実行可能ですが、開発エクスペリエンスとセキュリティを向上させるために、新しいWindowsシステムにアップグレードすることをお勧めします。

See all articles