站在TA的角度来看HTML,认识会大不一样_html/css_WEB-ITnose
TA就是,HTML解释器
从WebKit内核的HTML解释器的角度来看HTML。了解HTML文档是如何从字节流,一步步到DOM树的。理解这个过程,很多前端开发时一知半解的问题都能够很好地理解了。
总览解释过程
首先HTML解释器接受到的是字节流(Bytes),经过解码之后是字符流(Characters),然后通过词法分析器切成词语(Tokens),之后经过语法分析器构建成节点(Node),最后这些节点被组建成一棵DOM树(Document Object Model Tree)。
几乎所有的语言都有类似的一个“编译”过程,我们可以不关心每个流程中具体代码的细节,但每个过程发生了什么还是要了解的。
从字节流(Bytes)到字符流(Characters)
使用各种各样的编辑器编写HTML文档时,使用的编码格式是不一样的,如UTF-8,GBK等。这些编辑器的保存实际上就是把字符流使用编码格式保存成字节流文件的过程。而这些使用的编码格式之所以要在HTML文档内部注明,就是为了浏览器的HTML解释器能够正确地进行解码。
解码这一步骤就发生在,从字节流(Bytes)到字符流(Characters)这一过程中。
如果解释器在HTML网页中找到了设置的编码格式,WebKit会使用相应的解码器将字节流转换成特定格式的字符串。如果没有,则会使用默认的(UTF-8)来解码。
所以,您知道如何解决网页乱码问题了吧,在网络爬虫中,经常涉及网页乱码问题哦。
从字符流(Characters)到词语(Tokens)
这个过程一般叫词法分析,在WebKit中使用一个状态机来完成,总之就是输入字符串,输出一个个词语。在自然语言处理中,也有类似的过程,叫分词。
WebKit定义了6中词语类别,DOCTYPE,StartTag,EndTag,Comment,Character,EndOfFile。分词之后,WebKit还会做一些安全处理。
从词语(Tokens)到节点(Node)
Webkit接下来会对安全的词语,更具词语的6类别,分别调用类似processXXX这样的不同的函数,来将词语处理成节点。
从节点(Node)到DOM树(Document Object Model Tree)
类比其他语言,会根据词法分析的结果构建语法树,而HTML则构建的是DOM树。
因为HTML文档的Tag标签是有开始和结束标记的,类似括号匹配,不难想象可以利用数据结构栈来实现DOM树的构建。有兴趣可以去了解下,如何编程实现计算任意的1+3*(5-3)这类表达式……
另外,当我们忘记书写一个Tag的结束标记时,在构建DOM树的过程中,会利用栈的特性帮我们自动补上。
到此,完成了从字节流到DOM树的过程,^_^。
当然这里假设只有HTML。
参考书籍:《WebKit技术内幕》

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











공식 계정 웹 페이지 업데이트 캐시, 이것은 간단하고 간단하며 냄비를 마시기에 충분히 복잡합니다. 공식 계정 기사를 업데이트하기 위해 열심히 노력했지만 사용자는 여전히 기존 버전을 열었습니까? 이 기사에서는이 뒤에있는 비틀기와 회전을 살펴 보고이 문제를 우아하게 해결하는 방법을 살펴 보겠습니다. 읽은 후에는 다양한 캐싱 문제를 쉽게 처리 할 수있어 사용자가 항상 가장 신선한 콘텐츠를 경험할 수 있습니다. 기본 사항에 대해 먼저 이야기 해 봅시다. 액세스 속도를 향상시키기 위해 브라우저 또는 서버는 일부 정적 리소스 (예 : 그림, CSS, JS) 또는 페이지 컨텐츠를 저장합니다. 다음에 액세스 할 때 다시 다운로드하지 않고도 캐시에서 직접 검색 할 수 있으며 자연스럽게 빠릅니다. 그러나 이것은 또한 양날의 검입니다. 새 버전은 온라인입니다.

이 기사에서는 브라우저에서 직접 사용자 입력을 검증하기 위해 필요한, Pattern, Min, Max 및 Length 한계와 같은 HTML5 양식 검증 속성을 사용하는 것에 대해 설명합니다.

이 기사는 CSS를 사용한 웹 페이지에 효율적인 PNG 테두리 추가를 보여줍니다. CSS는 JavaScript 또는 라이브러리에 비해 우수한 성능을 제공하며, 미묘하거나 눈에 띄는 효과를 위해 테두리 너비, 스타일 및 색상 조정 방법을 자세히 설명합니다.

기사는 HTML5 크로스 브라우저 호환성을 보장하기위한 모범 사례에 대해 논의하고 기능 감지, 점진적 향상 및 테스트 방법에 중점을 둡니다.

이 기사는 HTML & LT; Datalist & GT에 대해 논의합니다. 자동 완성 제안을 제공하고, 사용자 경험을 향상시키고, 오류를 줄임으로써 양식을 향상시키는 요소. 문자 수 : 159

이 기사는 HTML & lt; Progress & Gt에 대해 설명합니다. 요소, 그 목적, 스타일 및 & lt; meter & gt의 차이; 요소. 주요 초점은 & lt; progress & gt; 작업 완료 및 & lt; meter & gt; Stati의 경우

이 기사는 html5 & lt; time & gt; 시맨틱 날짜/시간 표현 요소. 인간이 읽을 수있는 텍스트와 함께 기계 가독성 (ISO 8601 형식)에 대한 DateTime 속성의 중요성을 강조하여 Accessibilit를 향상시킵니다.

이 기사는 HTML & lt; meter & gt에 대해 설명합니다. 범위 내에 스칼라 또는 분수 값을 표시하는 데 사용되는 요소 및 웹 개발의 일반적인 응용 프로그램. & lt; meter & gt; & lt; Progress & Gt; 그리고 Ex
