クローラーズ_html/css_WEB-ITnose の理論的知識の蓄積
参考資料: Wang Hai: Python Web Crawler W3School HTML チュートリアル「コンピューター ネットワーク 第 2 版」 Xie Xiren
Web クローラーは、特定のルールに従った自動クローラーです。 World Wide Web から情報を効率的にクロールするプログラムまたはスクリプト。クローラーは Web ページを検索し、Web ページのリンク アドレスを通じて Web ページ コンテンツを取得し、Web ページ内の他のリンクに従って継続的にクロールします。
1 Web を閲覧するプロセス
Web を閲覧するプロセスは、実際には、ブラウザが閲覧「クライアント」として、サーバーを「キャッチ」するリクエストをサーバーに送信します。 -side files Local、次に説明して表示します。
- Uniform Resource Locator URL を使用して World Wide Web 上のさまざまなドキュメントをマークし、各ドキュメントにインターネット全体内で一意の識別子 URL を与えます。
- Hypertext Transfer Protocol HTTP を使用して World Wide Web 上のさまざまな接続を実現し、確実な送信のために TCP 接続を使用します。
- ハイパーテキスト マークアップ言語 HTML を使用すると、Web デザイナーはこのページ上のどこかからのリンクを簡単に使用して、任意の Web ページにリンクし、それを自分のホスト画面に表示できます。
2 Uniform Resource Locator URL
URL は、インターネットから取得したリソースの場所と、それらのリソースへのアクセス方法を表すために使用されます。 URL はリソースの場所の抽象的な識別メソッドを提供し、このメソッドを使用してリソースを見つけます。リソースが見つかる限り、システムはリソースに対するアクセス、更新、置換、属性の検索などのさまざまな操作を実行できます。 URL は、ファイル名のネットワーク全体の拡張子に相当します。したがって、URL は、インターネットに接続されたマシン上のアクセス可能なオブジェクトへのポインタです。オブジェクトごとにアクセスに使用されるプロトコルが異なるため、URL でオブジェクトの読み取り時に使用されるプロトコルを指定することもできます。 URL の一般的な形式は次のとおりです。
<协议>://<主机>:<端口>/<路径>
プロトコルは、http、ftp など、World Wide Web ドキュメントを取得するために使用されるプロトコルを指します。ホストは、ホストのドメイン名を指します。ネットワーク文書が存在します。ポートとパスは省略できる場合があります。 HTTP プロトコルは、World Wide Web 上のサイトにアクセスするために使用されます。HTTP のデフォルトのポート番号は 80 で、通常は省略できます。ファイル パスを省略した場合、URL はインターネット上のホームページを指します。例: www.baidu.com。
3 ハイパーテキスト転送プロトコル HTTP
HTTP プロトコルは、ブラウザが World Wide Web サーバーに World Wide Web ドキュメントを要求する方法、およびサーバーがドキュメントをブラウザに送信する方法を定義します。以下の図は、World Wide Web の仕組みの概要を示しています。
World Wide Web の作業プロセス
HTTP では、HTTP クライアントと HTTP サーバー間のすべての対話が、ASCII コードと " MIME のような」応答に応じて、HTTP メッセージは通常、TCP 接続を使用して送信されます。
HTTP には、リクエスト メッセージ (クライアントからサーバーに送信されるリクエスト メッセージ) とレスポンス メッセージ (サーバーからクライアントへの応答) の 2 種類のメッセージがあります。 HTTP リクエスト メッセージとレスポンス メッセージは 3 つの部分で構成されます。2 つのメッセージ形式の違いは、スタートラインが異なることです。
- スタートライン は、リクエストメッセージかレスポンスメッセージかを区別するために使用されます。開始行は、2 つのメッセージでそれぞれ リクエスト行 と ステータス行 と呼ばれます。
- ヘッダー行 は、ブラウザーまたはメッセージの件名に関する情報を記述するために使用されます。
- Entity body このフィールドは通常、要求メッセージでは使用されず、応答メッセージにはこのフィールドが含まれない場合があります。
リクエスト行には、 メソッド、リクエスト リソース URL、HTTP バージョン の 3 つの内容のみがあります。次の表に、リクエスト メッセージで一般的に使用されるメソッドをいくつか示します。
方法 | 意义 |
---|---|
GET | 请求读取URL标志的信息 |
OPTION | 请求一些选项的信息 |
HEAD | 请求读取URL标志信息的首部 |
POST | 给服务器添加信息,如注释 |
PUT | 在致命的URL下存储一个文档 |
DELETE | 删除致命的URL所标志的资源 |
CONNECT | 用于代理服务器 |
GET http://www.bilibili.com/video/douga.html HTTP/1.1
下面是一个请求报文的例子
请求报文
4 超文本标记语言HTML
HTML指的是超文本标记语言,是使用标记标签来描述网页的。
HTML标签是由尖括号包围的关键词,比如。HTML标签通常是成对出现的,标签对中的第一个标签是开始标签,第二个是结束标签,比如和。
HTML文档包含HTML标签和纯文本,也称为网页。Web 浏览器的作用是读取 HTML 文档,并以网页的形式显示出它们。浏览器不会显示 HTML 标签,而是使用标签来解释页面的内容。
四个基本的标签
-
等:定义HTML 标题。
:定义HTML 段落。
- :定义HTML 链接。
:定义HTML 图像。
- :HTML分组标签,定义文档中的分区或节。
<h1>This is a heading</h1><h2>This is a heading</h2><h3>This is a heading</h3><p>This is a paragraph.</p><p>This is another paragraph.</p><a href="http://www.w3school.com.cn">This is a link</a><img src="w3school.jpg" width="104" height="142" />
ログイン後にコピーHTML 元素指的是从开始标签(start tag)到结束标签(end tag)的所有代码。元素的内容是开始标签与结束标签之间的内容。大多数 HTML 元素可以嵌套(可以包含其他 HTML 元素),HTML 文档由嵌套的 HTML 元素构成。如下例包含3个HTML元素。
<html> <body> <p>This is my first paragraph.</p> </body></html>
ログイン後にコピーHTML 属性:HTML 标签可以拥有属性,属性提供了有关 HTML 元素的更多的信息,属性总是以名称/值对的形式出现,比如:name="value",属性总是在 HTML 元素的开始标签中规定;属性值应该始终被包括在引号内,双引号是最常用的,不过使用单引号也没有问题。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









この記事では、HTML&lt; Progress&gt;について説明します。要素、その目的、スタイリング、および&lt; meter&gt;との違い要素。主な焦点は、&lt; Progress&gt;を使用することです。タスクの完了と&lt; Meter&gt; statiの場合

この記事では、HTML&lt; Datalist&GT;について説明します。オートコンプリートの提案を提供し、ユーザーエクスペリエンスの改善、エラーの削減によりフォームを強化する要素。

記事では、HTML5クロスブラウザーの互換性を確保するためのベストプラクティスについて説明し、機能検出、プログレッシブエンハンスメント、およびテスト方法に焦点を当てています。

この記事では、html&lt; meter&gt;について説明します。要素は、範囲内でスカラーまたは分数値を表示するために使用され、Web開発におけるその一般的なアプリケーション。それは差別化&lt; Meter&gt; &lt; Progress&gt;およびex

この記事では、html5&lt; time&gt;について説明します。セマンティックデート/時刻表現の要素。 人間の読み取り可能なテキストとともに、マシンの読みやすさ(ISO 8601形式)のDateTime属性の重要性を強調し、Accessibilitを増やします

この記事では、ブラウザのユーザー入力を直接検証するために、必要、パターン、MIN、MAX、および長さの制限などのHTML5フォーム検証属性を使用して説明します。

この記事では、モバイルデバイスのレスポンシブWebデザインに不可欠なViewportメタタグについて説明します。適切な使用により、最適なコンテンツのスケーリングとユーザーの相互作用が保証され、誤用が設計とアクセシビリティの問題につながる可能性があることを説明しています。

この記事では、&lt; iframe&gt;外部コンテンツをWebページ、その一般的な用途、セキュリティリスク、およびオブジェクトタグやAPIなどの代替案に埋め込む際のタグの目的。
