communauté

Apprendre

Bibliothèque d'outils

Outils d'IA

Loisirs

Français

Maison > interface Web > tutoriel HTML > 站在TA的角度来看HTML，认识会大不一样_html/css_WEB-ITnose

站在TA的角度来看HTML，认识会大不一样_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2016-06-21 08:49:02

original

1200 Les gens l'ont consulté

TA就是，HTML解释器

从WebKit内核的HTML解释器的角度来看HTML。了解HTML文档是如何从字节流，一步步到DOM树的。理解这个过程，很多前端开发时一知半解的问题都能够很好地理解了。

总览解释过程

首先HTML解释器接受到的是字节流（Bytes），经过解码之后是字符流（Characters），然后通过词法分析器切成词语（Tokens），之后经过语法分析器构建成节点（Node），最后这些节点被组建成一棵DOM树（Document Object Model Tree）。

几乎所有的语言都有类似的一个“编译”过程，我们可以不关心每个流程中具体代码的细节，但每个过程发生了什么还是要了解的。

从字节流（Bytes）到字符流（Characters）

使用各种各样的编辑器编写HTML文档时，使用的编码格式是不一样的，如UTF-8，GBK等。这些编辑器的保存实际上就是把字符流使用编码格式保存成字节流文件的过程。而这些使用的编码格式之所以要在HTML文档内部注明，就是为了浏览器的HTML解释器能够正确地进行解码。

解码这一步骤就发生在，从字节流（Bytes）到字符流（Characters）这一过程中。

如果解释器在HTML网页中找到了设置的编码格式，WebKit会使用相应的解码器将字节流转换成特定格式的字符串。如果没有，则会使用默认的（UTF－8）来解码。

所以，您知道如何解决网页乱码问题了吧，在网络爬虫中，经常涉及网页乱码问题哦。

从字符流（Characters）到词语（Tokens）

这个过程一般叫词法分析，在WebKit中使用一个状态机来完成，总之就是输入字符串，输出一个个词语。在自然语言处理中，也有类似的过程，叫分词。

WebKit定义了6中词语类别，DOCTYPE，StartTag，EndTag，Comment，Character，EndOfFile。分词之后，WebKit还会做一些安全处理。

从词语（Tokens）到节点（Node）

Webkit接下来会对安全的词语，更具词语的6类别，分别调用类似processXXX这样的不同的函数，来将词语处理成节点。

从节点（Node）到DOM树（Document Object Model Tree）

类比其他语言，会根据词法分析的结果构建语法树，而HTML则构建的是DOM树。

因为HTML文档的Tag标签是有开始和结束标记的，类似括号匹配，不难想象可以利用数据结构栈来实现DOM树的构建。有兴趣可以去了解下，如何编程实现计算任意的1+3*(5-3)这类表达式……

另外，当我们忘记书写一个Tag的结束标记时，在构建DOM树的过程中，会利用栈的特性帮我们自动补上。

到此，完成了从字节流到DOM树的过程，^_^。

当然这里假设只有HTML。

参考书籍：《WebKit技术内幕》

Étiquettes associées：

站在TA的角度来看HTML，认识会大不一样

Article précédent：HTML标签与 React组件对比_html/css_WEB-ITnose Article suivant：Css基本样式――――背景_html/css_WEB-ITnose

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Comment fonctionnent les LLM: pré-formation à la formation post-formation, réseaux de neurones, hallucinations et inférence

2025-02-26 03:58:14
J'ai combiné la blockchain et l'IA pour générer de l'art. Voici ce qui s'est passé ensuite.

2025-02-26 03:38:10
Ingénierie rapide avancée: chaîne de pensée (COT)

2025-02-26 03:17:10
Génération augmentée augmentée de récupération dans SQLite

2025-02-26 02:49:09
Comment utiliser un chauffeur à propulsion LLM pour construire votre propre API Node.js

2025-02-26 01:08:13
LLMS pour le codage en 2024: prix, performance et bataille pour le meilleur

2025-02-26 00:46:10
Invitant les modèles de langue de vision

2025-02-25 23:42:08
Comment mesurer la fiabilité de la réponse d'un modèle grand

2025-02-25 22:50:13
Une illusion de la vie

2025-02-25 21:54:11
Les scientifiques vont sérieux au sujet de grands modèles de langue reflétant la pensée humaine

2025-02-25 20:45:11

Derniers numéros

javascript - Le code pour modifier l'image de la boîte dans la liste déroulante.

Depuis 1970-01-01 08:00:00

0

0

0

Comment ionic2 utilise-t-il les styles d'iOS sur la plateforme Android

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Existe-t-il un excellent outil de point d'arrêt sur NPM?

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Comment Webpack bloque-t-il globalement la valeur de hachage de cette build pour une utilisation par le code JS ?

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Comment jQuery implémente-t-il le préchargement des effets sonores sur les pages mobiles?

Depuis 1970-01-01 08:00:00

0

0

0

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal