1 Web を閲覧するプロセス

2 Uniform Resource Locator URL

3 ハイパーテキスト転送プロトコル HTTP

4 超文本标记语言HTML

ホームページ

ウェブフロントエンド

htmlチュートリアル

クローラーズ_html/css_WEB-ITnose の理論的知識の蓄積

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 21, 2016 am 08:54 AM

参考資料: Wang Hai: Python Web Crawler W3School HTML チュートリアル「コンピューターネットワーク第 2 版」 Xie Xiren

Web クローラーは、特定のルールに従った自動クローラーです。 World Wide Web から情報を効率的にクロールするプログラムまたはスクリプト。クローラーは Web ページを検索し、Web ページのリンクアドレスを通じて Web ページコンテンツを取得し、Web ページ内の他のリンクに従って継続的にクロールします。

1 Web を閲覧するプロセス

Web を閲覧するプロセスは、実際には、ブラウザが閲覧「クライアント」として、サーバーを「キャッチ」するリクエストをサーバーに送信します。 -side files Local、次に説明して表示します。

Uniform Resource Locator URL を使用して World Wide Web 上のさまざまなドキュメントをマークし、各ドキュメントにインターネット全体内で一意の識別子 URL を与えます。
Hypertext Transfer Protocol HTTP を使用して World Wide Web 上のさまざまな接続を実現し、確実な送信のために TCP 接続を使用します。
ハイパーテキストマークアップ言語 HTML を使用すると、Web デザイナーはこのページ上のどこかからのリンクを簡単に使用して、任意の Web ページにリンクし、それを自分のホスト画面に表示できます。

2 Uniform Resource Locator URL

URL は、インターネットから取得したリソースの場所と、それらのリソースへのアクセス方法を表すために使用されます。 URL はリソースの場所の抽象的な識別メソッドを提供し、このメソッドを使用してリソースを見つけます。リソースが見つかる限り、システムはリソースに対するアクセス、更新、置換、属性の検索などのさまざまな操作を実行できます。 URL は、ファイル名のネットワーク全体の拡張子に相当します。したがって、URL は、インターネットに接続されたマシン上のアクセス可能なオブジェクトへのポインタです。オブジェクトごとにアクセスに使用されるプロトコルが異なるため、URL でオブジェクトの読み取り時に使用されるプロトコルを指定することもできます。 URL の一般的な形式は次のとおりです。

 <协议>://<主机>:<端口>/<路径>

ログイン後にコピー

プロトコルは、http、ftp など、World Wide Web ドキュメントを取得するために使用されるプロトコルを指します。ホストは、ホストのドメイン名を指します。ネットワーク文書が存在します。ポートとパスは省略できる場合があります。 HTTP プロトコルは、World Wide Web 上のサイトにアクセスするために使用されます。HTTP のデフォルトのポート番号は 80 で、通常は省略できます。ファイルパスを省略した場合、URL はインターネット上のホームページを指します。例: www.baidu.com。

3 ハイパーテキスト転送プロトコル HTTP

HTTP プロトコルは、ブラウザが World Wide Web サーバーに World Wide Web ドキュメントを要求する方法、およびサーバーがドキュメントをブラウザに送信する方法を定義します。以下の図は、World Wide Web の仕組みの概要を示しています。

World Wide Web の作業プロセス

HTTP では、HTTP クライアントと HTTP サーバー間のすべての対話が、ASCII コードと " MIME のような」応答に応じて、HTTP メッセージは通常、TCP 接続を使用して送信されます。

HTTP には、リクエストメッセージ (クライアントからサーバーに送信されるリクエストメッセージ) とレスポンスメッセージ (サーバーからクライアントへの応答) の 2 種類のメッセージがあります。 HTTP リクエストメッセージとレスポンスメッセージは 3 つの部分で構成されます。2 つのメッセージ形式の違いは、スタートラインが異なることです。

スタートライン は、リクエストメッセージかレスポンスメッセージかを区別するために使用されます。開始行は、2 つのメッセージでそれぞれ リクエスト行 と ステータス行 と呼ばれます。
ヘッダー行 は、ブラウザーまたはメッセージの件名に関する情報を記述するために使用されます。
Entity body このフィールドは通常、要求メッセージでは使用されず、応答メッセージにはこのフィールドが含まれない場合があります。

リクエスト行には、 メソッド、リクエストリソース URL、HTTP バージョン の 3 つの内容のみがあります。次の表に、リクエストメッセージで一般的に使用されるメソッドをいくつか示します。

方法	意义
GET	请求读取URL标志的信息
OPTION	请求一些选项的信息
HEAD	请求读取URL标志信息的首部
POST	给服务器添加信息，如注释
PUT	在致命的URL下存储一个文档
DELETE	删除致命的URL所标志的资源
CONNECT	用于代理服务器

GET http://www.bilibili.com/video/douga.html  HTTP/1.1

ログイン後にコピー

下面是一个请求报文的例子

请求报文

4 超文本标记语言HTML

HTML指的是超文本标记语言，是使用标记标签来描述网页的。

HTML标签是由尖括号包围的关键词，比如。HTML标签通常是成对出现的，标签对中的第一个标签是开始标签，第二个是结束标签，比如和。

HTML文档包含HTML标签和纯文本，也称为网页。Web 浏览器的作用是读取 HTML 文档，并以网页的形式显示出它们。浏览器不会显示 HTML 标签，而是使用标签来解释页面的内容。

四个基本的标签

-
等：定义HTML 标题。
：定义HTML 段落。
：定义HTML 链接。

：定义HTML 图像。

:HTML分组标签，定义文档中的分区或节。

<h1>This is a heading</h1><h2>This is a heading</h2><h3>This is a heading</h3><p>This is a paragraph.</p><p>This is another paragraph.</p><a href="http://www.w3school.com.cn">This is a link</a><img src="w3school.jpg" width="104" height="142" />

ログイン後にコピー

HTML 元素指的是从开始标签（start tag）到结束标签（end tag）的所有代码。元素的内容是开始标签与结束标签之间的内容。大多数 HTML 元素可以嵌套（可以包含其他 HTML 元素），HTML 文档由嵌套的 HTML 元素构成。如下例包含3个HTML元素。

<html>    <body>        <p>This is my first paragraph.</p>    </body></html>

ログイン後にコピー

HTML 属性：HTML 标签可以拥有属性，属性提供了有关 HTML 元素的更多的信息，属性总是以名称/值对的形式出现，比如：name="value"，属性总是在 HTML 元素的开始标签中规定；属性值应该始终被包括在引号内，双引号是最常用的，不过使用单引号也没有问题。

HTML 链接由标签定义，链接的地址在 href 属性中指定：This is a link

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7465

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

＆lt; Progress＆gt;の目的は何ですか要素？ Mar 21, 2025 pm 12:34 PM

この記事では、HTML＆lt; Progress＆gt;について説明します。要素、その目的、スタイリング、および＆lt; meter＆gt;との違い要素。主な焦点は、＆lt; Progress＆gt;を使用することです。タスクの完了と＆lt; Meter＆gt; statiの場合

＆lt; datalist＆gt;の目的は何ですか要素？ Mar 21, 2025 pm 12:33 PM

この記事では、HTML＆lt; Datalist＆GT;について説明します。オートコンプリートの提案を提供し、ユーザーエクスペリエンスの改善、エラーの削減によりフォームを強化する要素。

HTML5のクロスブラウザー互換性のベストプラクティスは何ですか？ Mar 17, 2025 pm 12:20 PM

記事では、HTML5クロスブラウザーの互換性を確保するためのベストプラクティスについて説明し、機能検出、プログレッシブエンハンスメント、およびテスト方法に焦点を当てています。

＆lt; meter＆gt;の目的は何ですか要素？ Mar 21, 2025 pm 12:35 PM

この記事では、html＆lt; meter＆gt;について説明します。要素は、範囲内でスカラーまたは分数値を表示するために使用され、Web開発におけるその一般的なアプリケーション。それは差別化＆lt; Meter＆gt; ＆lt; Progress＆gt;およびex

HTML5＆lt; time＆gt;を使用するにはどうすればよいですか日付と時刻を意味的に表す要素？ Mar 12, 2025 pm 04:05 PM

この記事では、html5＆lt; time＆gt;について説明します。セマンティックデート/時刻表現の要素。人間の読み取り可能なテキストとともに、マシンの読みやすさ（ISO 8601形式）のDateTime属性の重要性を強調し、Accessibilitを増やします

HTML5フォーム検証属性を使用してユーザー入力を検証するにはどうすればよいですか？ Mar 17, 2025 pm 12:27 PM

この記事では、ブラウザのユーザー入力を直接検証するために、必要、パターン、MIN、MAX、および長さの制限などのHTML5フォーム検証属性を使用して説明します。

ビューポートメタタグとは何ですか？レスポンシブデザインにとってなぜそれが重要なのですか？ Mar 20, 2025 pm 05:56 PM

この記事では、モバイルデバイスのレスポンシブWebデザインに不可欠なViewportメタタグについて説明します。適切な使用により、最適なコンテンツのスケーリングとユーザーの相互作用が保証され、誤用が設計とアクセシビリティの問題につながる可能性があることを説明しています。

＆lt; iframe＆gt;の目的は何ですかタグ？使用する際のセキュリティ上の考慮事項は何ですか？ Mar 20, 2025 pm 06:05 PM

この記事では、＆lt; iframe＆gt;外部コンテンツをWebページ、その一般的な用途、セキュリティリスク、およびオブジェクトタグやAPIなどの代替案に埋め込む際のタグの目的。

See all articles

クローラーズ_html/css_WEB-ITnose の理論的知識の蓄積

1 Web を閲覧するプロセス

2 Uniform Resource Locator URL

3 ハイパーテキスト転送プロトコル HTTP

4 超文本标记语言HTML

-

等：定义HTML 标题。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック