参考資料: Wang Hai: Python Web Crawler W3School HTML チュートリアル「コンピューター ネットワーク 第 2 版」 Xie Xiren
Web クローラーは、特定のルールに従った自動クローラーです。 World Wide Web から情報を効率的にクロールするプログラムまたはスクリプト。クローラーは Web ページを検索し、Web ページのリンク アドレスを通じて Web ページ コンテンツを取得し、Web ページ内の他のリンクに従って継続的にクロールします。
Web を閲覧するプロセスは、実際には、ブラウザが閲覧「クライアント」として、サーバーを「キャッチ」するリクエストをサーバーに送信します。 -side files Local、次に説明して表示します。
URL は、インターネットから取得したリソースの場所と、それらのリソースへのアクセス方法を表すために使用されます。 URL はリソースの場所の抽象的な識別メソッドを提供し、このメソッドを使用してリソースを見つけます。リソースが見つかる限り、システムはリソースに対するアクセス、更新、置換、属性の検索などのさまざまな操作を実行できます。 URL は、ファイル名のネットワーク全体の拡張子に相当します。したがって、URL は、インターネットに接続されたマシン上のアクセス可能なオブジェクトへのポインタです。オブジェクトごとにアクセスに使用されるプロトコルが異なるため、URL でオブジェクトの読み取り時に使用されるプロトコルを指定することもできます。 URL の一般的な形式は次のとおりです。
<协议>://<主机>:<端口>/<路径>
プロトコルは、http、ftp など、World Wide Web ドキュメントを取得するために使用されるプロトコルを指します。ホストは、ホストのドメイン名を指します。ネットワーク文書が存在します。ポートとパスは省略できる場合があります。 HTTP プロトコルは、World Wide Web 上のサイトにアクセスするために使用されます。HTTP のデフォルトのポート番号は 80 で、通常は省略できます。ファイル パスを省略した場合、URL はインターネット上のホームページを指します。例: www.baidu.com。
HTTP プロトコルは、ブラウザが World Wide Web サーバーに World Wide Web ドキュメントを要求する方法、およびサーバーがドキュメントをブラウザに送信する方法を定義します。以下の図は、World Wide Web の仕組みの概要を示しています。
World Wide Web の作業プロセス
HTTP では、HTTP クライアントと HTTP サーバー間のすべての対話が、ASCII コードと " MIME のような」応答に応じて、HTTP メッセージは通常、TCP 接続を使用して送信されます。
HTTP には、リクエスト メッセージ (クライアントからサーバーに送信されるリクエスト メッセージ) とレスポンス メッセージ (サーバーからクライアントへの応答) の 2 種類のメッセージがあります。 HTTP リクエスト メッセージとレスポンス メッセージは 3 つの部分で構成されます。2 つのメッセージ形式の違いは、スタートラインが異なることです。
リクエスト行には、 メソッド、リクエスト リソース URL、HTTP バージョン の 3 つの内容のみがあります。次の表に、リクエスト メッセージで一般的に使用されるメソッドをいくつか示します。
方法 | 意义 |
---|---|
GET | 请求读取URL标志的信息 |
OPTION | 请求一些选项的信息 |
HEAD | 请求读取URL标志信息的首部 |
POST | 给服务器添加信息,如注释 |
PUT | 在致命的URL下存储一个文档 |
DELETE | 删除致命的URL所标志的资源 |
CONNECT | 用于代理服务器 |
GET http://www.bilibili.com/video/douga.html HTTP/1.1
下面是一个请求报文的例子
请求报文
HTML指的是超文本标记语言,是使用标记标签来描述网页的。
HTML标签是由尖括号包围的关键词,比如。HTML标签通常是成对出现的,标签对中的第一个标签是开始标签,第二个是结束标签,比如和。
HTML文档包含HTML标签和纯文本,也称为网页。Web 浏览器的作用是读取 HTML 文档,并以网页的形式显示出它们。浏览器不会显示 HTML 标签,而是使用标签来解释页面的内容。
四个基本的标签
:定义HTML 段落。
<h1>This is a heading</h1><h2>This is a heading</h2><h3>This is a heading</h3><p>This is a paragraph.</p><p>This is another paragraph.</p><a href="http://www.w3school.com.cn">This is a link</a><img src="w3school.jpg" width="104" height="142" />
HTML 元素指的是从开始标签(start tag)到结束标签(end tag)的所有代码。元素的内容是开始标签与结束标签之间的内容。大多数 HTML 元素可以嵌套(可以包含其他 HTML 元素),HTML 文档由嵌套的 HTML 元素构成。如下例包含3个HTML元素。
<html> <body> <p>This is my first paragraph.</p> </body></html>
HTML 属性:HTML 标签可以拥有属性,属性提供了有关 HTML 元素的更多的信息,属性总是以名称/值对的形式出现,比如:name="value",属性总是在 HTML 元素的开始标签中规定;属性值应该始终被包括在引号内,双引号是最常用的,不过使用单引号也没有问题。