Inhaltsverzeichnis
1 浏览网页的过程
2 统一资源定位符URL
3 超文本传送协议HTTP
4 超文本标记语言HTML
:定义HTML 图像。
  • :HTML分组标签,定义文档中的分区或节。
  • Heim Web-Frontend HTML-Tutorial 爬虫的理论知识储备_html/css_WEB-ITnose

    爬虫的理论知识储备_html/css_WEB-ITnose

    Jun 21, 2016 am 08:54 AM

    参考资料:汪海:Python网络爬虫W3School HTML教程《计算机网络第二版》 谢希仁

    网络爬虫,是一中按照一定的规则,自动地抓取万维网信息的程序或脚本。爬虫通过网页的链接地址来寻找网页并获取网页内容,再根据网页中其他链接不断循环爬取。

    1 浏览网页的过程

    浏览网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。

    • 使用统一资源定位符URL来标志万维网上的各种文档,并使每一个文档在整个因特网的范围内具有唯一的标识符URL。
    • 通过超文本传送协议HTTP来实现万维网上各种连接,使用TCP连接进行可靠的传送。
    • 使用超文本标记语言HTML使得网页设计者可以很方便地用链接从本页面的某处链接到任意网页,并在自己主机屏幕上显示。

    2 统一资源定位符URL

    URL是用来表示从因特网上得到的资源位置和访问这些资源的方法。URL给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性。URL相当于一个文件名在网络范围的扩展。因此,URL是与因特网相连的机器上的任何可访问对象的指针。由于访问不同对象使用的协议不同,URL还能之处读取某个对象时所使用的协议。URL的一般形式为:

     <协议>://<主机>:<端口>/<路径>
    Nach dem Login kopieren

    协议是指用哪种协议获取该万维网文档,如http,ftp;主机是指该网络文档所在主机的域名;端口和路径有时可以省略。对万维网的网点访问使用HTTP协议,HTTP的默认端口号是80,通常可省略。若在省略文件的路径,则URL就指到因特网上的某个主页。如: www.baidu.com。

    3 超文本传送协议HTTP

    HTTP协议定义了浏览器怎样向万维网服务器请求万维网文档,以及服务器怎样把文档传送给浏览器。下图给出了万维网的大致工作过程。

    万维网工作过程

    HTTP规定在HTTP客户与HTTP服务器之间的每次交互,都由一个ASCII码穿构成的请求和一个“MIME-like”的响应组成,HTTP报文通常都使用TCP连接传送。

    HTTP有两类报文:请求报文(从客户向服务器发送请求报文)和响应报文(从服务器到客户的回答)。HTTP请求报文和响应报文都是由三部分组成,两种报文格式的区别就是开始行不同。

    1. 开始行 用于区分是请求报文还是响应报文。开始行在两种报文中分别叫请求行状态行
    2. 首部行 用来说明浏览器或报文主题的一些信息。
    3. 实体主体 在请求报文中一般不用该字段,而在响应报文中也可能没有该字段。

    请求行只有三个内容,即方法、请求资源URL和HTTP的版本。下表给出了请求报文中常用的几种方法。

    方法 意义
    GET 请求读取URL标志的信息
    OPTION 请求一些选项的信息
    HEAD 请求读取URL标志信息的首部
    POST 给服务器添加信息,如注释
    PUT 在致命的URL下存储一个文档
    DELETE 删除致命的URL所标志的资源
    CONNECT 用于代理服务器
    GET http://www.bilibili.com/video/douga.html  HTTP/1.1
    Nach dem Login kopieren

    下面是一个请求报文的例子

    请求报文

    4 超文本标记语言HTML

    HTML指的是超文本标记语言,是使用标记标签来描述网页的。

    HTML标签是由尖括号包围的关键词,比如。HTML标签通常是成对出现的,标签对中的第一个标签是开始标签,第二个是结束标签,比如

    HTML文档包含HTML标签和纯文本,也称为网页。Web 浏览器的作用是读取 HTML 文档,并以网页的形式显示出它们。浏览器不会显示 HTML 标签,而是使用标签来解释页面的内容。

    四个基本的标签

    <h1>This is a heading</h1><h2 id="This-is-a-heading">This is a heading</h2><h3 id="This-is-a-heading">This is a heading</h3><p>This is a paragraph.</p><p>This is another paragraph.</p><a href="http://www.w3school.com.cn">This is a link</a><img  src="/static/imghw/default1.png"  data-src="w3school.jpg"  class="lazy"    style="max-width:90%"  style="max-width:90%" / alt="爬虫的理论知识储备_html/css_WEB-ITnose" >
    Nach dem Login kopieren

    HTML 元素指的是从开始标签(start tag)到结束标签(end tag)的所有代码。元素的内容是开始标签与结束标签之间的内容。大多数 HTML 元素可以嵌套(可以包含其他 HTML 元素),HTML 文档由嵌套的 HTML 元素构成。如下例包含3个HTML元素。

    <html>    <body>        <p>This is my first paragraph.</p>    </body></html>
    Nach dem Login kopieren

    HTML 属性:HTML 标签可以拥有属性,属性提供了有关 HTML 元素的更多的信息,属性总是以名称/值对的形式出现,比如:name="value",属性总是在 HTML 元素的开始标签中规定;属性值应该始终被包括在引号内,双引号是最常用的,不过使用单引号也没有问题。

    HTML 链接由标签定义,链接的地址在 href 属性中指定:This is a link

    Erklärung dieser Website
    Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

    Heiße KI -Werkzeuge

    Undresser.AI Undress

    Undresser.AI Undress

    KI-gestützte App zum Erstellen realistischer Aktfotos

    AI Clothes Remover

    AI Clothes Remover

    Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

    Undress AI Tool

    Undress AI Tool

    Ausziehbilder kostenlos

    Clothoff.io

    Clothoff.io

    KI-Kleiderentferner

    AI Hentai Generator

    AI Hentai Generator

    Erstellen Sie kostenlos Ai Hentai.

    Heißer Artikel

    R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
    3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O. Beste grafische Einstellungen
    3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
    3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
    WWE 2K25: Wie man alles in Myrise freischaltet
    3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

    Heiße Werkzeuge

    Notepad++7.3.1

    Notepad++7.3.1

    Einfach zu bedienender und kostenloser Code-Editor

    SublimeText3 chinesische Version

    SublimeText3 chinesische Version

    Chinesische Version, sehr einfach zu bedienen

    Senden Sie Studio 13.0.1

    Senden Sie Studio 13.0.1

    Leistungsstarke integrierte PHP-Entwicklungsumgebung

    Dreamweaver CS6

    Dreamweaver CS6

    Visuelle Webentwicklungstools

    SublimeText3 Mac-Version

    SublimeText3 Mac-Version

    Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

    Was ist der Zweck des & lt; Fortschritts & gt; Element? Was ist der Zweck des & lt; Fortschritts & gt; Element? Mar 21, 2025 pm 12:34 PM

    Der Artikel erörtert den HTML & lt; Progress & gt; Element, Absicht, Styling und Unterschiede vom & lt; Meter & gt; Element. Das Hauptaugenmerk liegt auf der Verwendung & lt; Fortschritt & gt; Für Aufgabenabschluss und & lt; Meter & gt; für stati

    Was ist der Zweck des & lt; datalist & gt; Element? Was ist der Zweck des & lt; datalist & gt; Element? Mar 21, 2025 pm 12:33 PM

    Der Artikel erörtert den HTML & lt; Datalist & gt; Element, das die Formulare verbessert, indem automatische Vorschläge bereitgestellt, die Benutzererfahrung verbessert und Fehler reduziert werden.Character Count: 159

    Was ist der Zweck des & lt; Meter & gt; Element? Was ist der Zweck des & lt; Meter & gt; Element? Mar 21, 2025 pm 12:35 PM

    Der Artikel erörtert das HTML & lt; Meter & gt; Element, verwendet zur Anzeige von Skalar- oder Bruchwerten innerhalb eines Bereichs und seine gemeinsamen Anwendungen in der Webentwicklung. Es differenziert & lt; Meter & gt; von & lt; Fortschritt & gt; und Ex

    Was sind die besten Praktiken für die Kompatibilität des Cross-Browsers in HTML5? Was sind die besten Praktiken für die Kompatibilität des Cross-Browsers in HTML5? Mar 17, 2025 pm 12:20 PM

    In Artikel werden Best Practices zur Gewährleistung der HTML5-Cross-Browser-Kompatibilität erörtert und sich auf die Erkennung von Merkmalen, die progressive Verbesserung und die Testmethoden konzentriert.

    Wie verwende ich HTML5 -Formularvalidierungsattribute, um die Benutzereingabe zu validieren? Wie verwende ich HTML5 -Formularvalidierungsattribute, um die Benutzereingabe zu validieren? Mar 17, 2025 pm 12:27 PM

    In dem Artikel werden unter Verwendung von HTML5 -Formularvalidierungsattributen wie Erforderlich, Muster, Min, MAX und Längengrenzen erörtert, um die Benutzereingabe direkt im Browser zu validieren.

    Was ist das Ansichtsfenster -Meta -Tag? Warum ist es wichtig für reaktionsschnelles Design? Was ist das Ansichtsfenster -Meta -Tag? Warum ist es wichtig für reaktionsschnelles Design? Mar 20, 2025 pm 05:56 PM

    In dem Artikel wird das Ansichtsfenster -Meta -Tag erörtert, das für das reaktionsschnelle Webdesign auf mobilen Geräten unerlässlich ist. Es wird erläutert, wie die ordnungsgemäße Verwendung eine optimale Skalierung von Inhalten und Benutzerinteraktion gewährleistet, während Missbrauch zu Design- und Zugänglichkeitsproblemen führen kann.

    Wie benutze ich die HTML5 & lt; Zeit & gt; Element, um Daten und Zeiten semantisch darzustellen? Wie benutze ich die HTML5 & lt; Zeit & gt; Element, um Daten und Zeiten semantisch darzustellen? Mar 12, 2025 pm 04:05 PM

    Dieser Artikel erklärt den HTML5 & lt; Time & gt; Element für semantische Datum/Uhrzeit. Es betont die Wichtigkeit des DateTime-Attributs für die Maschinenlesbarkeit (ISO 8601-Format) neben menschenlesbarem Text, das Zubehör steigert

    Was ist der Zweck des & lt; iframe & gt; Etikett? Was sind die Sicherheitsüberlegungen bei der Verwendung? Was ist der Zweck des & lt; iframe & gt; Etikett? Was sind die Sicherheitsüberlegungen bei der Verwendung? Mar 20, 2025 pm 06:05 PM

    Der Artikel erörtert das & lt; iframe & gt; Der Zweck von Tag, externe Inhalte in Webseiten, seine gemeinsamen Verwendungen, Sicherheitsrisiken und Alternativen wie Objekt -Tags und APIs einzubetten.

    See all articles