zhihu-go 源码解析：用 goquery 解析 HTML_html/css

创建 Document 对象

查找到指定节点

属性操作

迭代

删除节点、插入 HTML、导出 HTML

总结

집

웹 프론트엔드

HTML 튜토리얼

zhihu-go 源码解析：用 goquery 解析 HTML_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 21, 2016 am 08:52 AM

上一篇博客简单介绍了 zhihu-go项目的缘起，本篇简单介绍一下关于处理 HTML 的细节。

因为知乎没有开发 API，所以只能通过模拟浏览器操作的方式获取数据，这些数据有两种格式：普通的 HTML 文档和某些 Ajax 接口返回的 JSON（返回的数据实际上也是 HTML）。其实也就是爬虫了，抓取网页，然后提取数据。一般来说从 HTML 文档提取数据有这些做法：正则、XPath、CSS 选择器等。对我来说，正则写起来比较复杂，代码可读性差而且维护起来麻烦；XPath 没有详细了解，不过用起来应该不难，而且 Chrome 浏览器可以直接提取 XPath. zhihu-go 里用的是选择器的方式，使用了 goquery.

goquery 是 “a little like that j-thing, only in Go”，也就是用 jQuery 的方式去操作 DOM. jQuery 大家都很熟，API 也很简单明了。本文不详细介绍 goquery，下面选几个场景（API）讲讲在 zhihu-go 里的应用。

创建 Document 对象

goquery 暴露了两个结构体： Document和 Selection. Document表示一个 HTML 文档， Selection用于像 jQuery 一样操作，支持链式调用。goquery 需要指定一个 HTML 文档才能继续后续的操作，有以下几个构造方式：

NewDocumentFromNode(root *html.Node) *Document: 传入 *html.Node对象，也就是根节点。
NewDocument(url string) (*Document, error): 传入 URL，内部用 http.Get获取网页。
NewDocumentFromReader(r io.Reader) (*Document, error): 传入 io.Reader，内部从 reader 中读取内容并解析。
NewDocumentFromResponse(res *http.Response) (*Document, error): 传入 HTTP 响应，内部拿到 res.Body(实现了 io.Reader) 后的处理方式类似 NewDocumentFromReader.

因为知乎的页面需要登录才能访问（还需要伪造请求头），而且我们并不想手动解析 HTML 来获取 *html.Node，最后用到了另外两个构造方法。大致的使用场景是：

请求 HTML 页面（如问题页面），调用 NewDocumentFromResponse
请求 Ajax 接口，返回的 JSON 数据里是一些 HTML 片段，用 NewDocumentFromReader，其中 r = strings.NewReader(html)

为了方便举例说明，下文采用这个定义： var doc *goquery.Document.

查找到指定节点

Selection有一系列类似 jQuery 的方法， Document结构体内嵌了 *Selection，因此也能直接调用这些方法。主要的方法是 Selection.Find(selector string)，传入一个选择器，返回一个新的，匹配到的 *Selection，所以能够链式调用。

比如在用户主页（如黄继新），要获取用户的 BIO. 首先用 Chrome 定位到对应的 HTML：

<span class="bio" title="和知乎在一起">和知乎在一起</span>

로그인 후 복사

对应的 go 代码就是：

doc.Find("span.bio")

로그인 후 복사

如果一个选择器对应多个结果，可以使用 First(), Last(), Eq(index int), Slice(start, end int)这些方法进一步定位。

还是在用户主页，在用户资料栏的底下，从左往右展示了提问数、回答数、文章数、收藏数和公共编辑的次数。查看 HTML 源码后发现这几项的 class 是一样的，所以只能通过下标索引来区分。

先看 HTML 源码：

<div class="profile-navbar clearfix"><a class="item " href="/people/jixin/asks">提问<span class="num">1336</span></a><a class="item " href="/people/jixin/answers">回答<span class="num">785</span></a><a class="item " href="/people/jixin/posts">文章<span class="num">91</span></a><a class="item " href="/people/jixin/collections">收藏<span class="num">44</span></a><a class="item " href="/people/jixin/logs">公共编辑<span class="num">51648</span></a></div>

로그인 후 복사

如果要定位找到回答数，对应的 go 代码是：

doc.Find("div.profile-navbar").Find("span.num").Eq(1)

로그인 후 복사

属性操作

经常需要获取一个标签的内容和某些属性值，使用 goquery 可以很容易做到。

继续上面获取回答数的例子，用 Text() string方法可以获取标签内的文本内容，其中包含所有子标签。

text := doc.Find("div.profile-navbar").Find("span.num").Eq(1).Text()    // "785"

로그인 후 복사

需要注意的是， Text()方法返回的字符串，可能前后有很多空白字符，可以视情况做清除。

获取属性值也很容易，有两个方法：

Attr(attrName string) (val string, exists bool): 返回属性值和该属性是否存在，类似从 map中取值
AttrOr(attrName, defaultValue string) string: 和上一个方法类似，区别在于如果属性不存在，则返回给定的默认值

常见的使用场景就是获取一个 a 标签的链接。继续上面获取回答的例子，如果想要得到用户回答的主页，可以这么做：

href, _ := doc.Find("div.profile-navbar").Find("a.item").Eq(1).Attr("href")

로그인 후 복사

还有其他设置属性、操作 class 的方法，就不展开讨论了。

迭代

很多场景需要返回列表数据，比如问题的关注者列表、所有回答，某个答案的点赞的用户列表等。这种情况下一般需要用到迭代，遍历所有的同类节点，做某些操作。

goquery 提供了三个用于迭代的方法，都接受一个匿名函数作为参数：

Each(f func(int, *Selection)) *Selection: 其中函数 f的第一个参数是当前的下标，第二个参数是当前的节点
EachWithBreak(f func(int, *Selection) bool) *Selection: 和 Each类似，增加了中途跳出循环的能力，当 f返回 false时结束迭代
Map(f func(int, *Selection) string) (result []string): f的参数与上面一样，返回一个 string 类型，最终返回 []string.

比如获取一个收藏夹（如黄继新的收藏：关于知乎的思考）下所有的问题，可以这么做（见 zhihu-go/collections.go）：

func getQuestionsFromDoc(doc *goquery.Document) []*Question {	questions := make([]*Question, 0, pageSize)	items := doc.Find("div#zh-list-answer-wrap").Find("h2.zm-item-title")	items.Each(func(index int, sel *goquery.Selection) {		a := sel.Find("a")		qTitle := strip(a.Text())		qHref, _ := a.Attr("href")		thisQuestion := NewQuestion(makeZhihuLink(qHref), qTitle)		questions = append(questions, thisQuestion)	})	return questions}

로그인 후 복사

EachWithBreak在 zhihu-go 中也有用到，可以参见 Answer.GetVotersN 方法： zhihu-go/answer.go.

删除节点、插入 HTML、导出 HTML

有一个需求是把回答内容输出到 HTML，说白了其实就是修复和清洗 HTML，具体的细节可以看 answer.go 里的 answerSelectionToHtml 函数. 其中用到了一些需要修改文档的操作。

比如，调用 Remove()方法把一个节点删掉：

sel.Find("noscript").Each(func(_ int, tag *goquery.Selection) {    tag.Remove() // 把无用的 noscript 去掉})

로그인 후 복사

在节点后插入一段 HTML:

sel.Find("img").Each(func(_ int, tag *goquery.Selection) {    var src string    if tag.HasClass("origin_image") {        src, _ = tag.Attr("data-original")    } else {        src, _ = tag.Attr("data-actualsrc")    }    tag.SetAttr("src", src)    if tag.Next().Size() == 0 {        tag.AfterHtml("<br>")   // 在 img 标签后插入一个换行    }})

로그인 후 복사

在标签尾部 append 一段内容：

wrapper := `<html><head><meta charset="utf-8"></head><body></body></html>`doc, _ := goquery.NewDocumentFromReader(strings.NewReader(wrapper))doc.Find("body").AppendSelection(sel)

로그인 후 복사

最终输出为 html 文档：

html, err := doc.Html()

로그인 후 복사

总结

上面的例子基本涵盖了 zhihu-go 中关于 HTML 操作的场景，得益于 goquery 和 jQuery 的 API 风格，实现起来还是非常简单的。

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1659

Cakephp 튜토리얼

1415

라라벨 튜토리얼

1310

PHP 튜토리얼

1258

C# 튜토리얼

1232

Related knowledge

HTML은 초보자를 위해 쉽게 배우나요? Apr 07, 2025 am 12:11 AM

HTML은 간단하고 배우기 쉽고 결과를 빠르게 볼 수 있기 때문에 초보자에게 적합합니다. 1) HTML의 학습 곡선은 매끄럽고 시작하기 쉽습니다. 2) 기본 태그를 마스터하여 웹 페이지를 만들기 시작하십시오. 3) 유연성이 높고 CSS 및 JavaScript와 함께 사용할 수 있습니다. 4) 풍부한 학습 리소스와 현대 도구는 학습 과정을 지원합니다.

HTML, CSS 및 JavaScript 이해 : 초보자 안내서 Apr 12, 2025 am 12:02 AM

WebDevelopmentReliesonHtml, CSS 및 JavaScript : 1) HtmlStructuresContent, 2) CSSSTYLESIT, 및 3) JAVASCRIPTADDSINGINTERACTIVITY, BASISOFMODERNWEBEXPERIENCES를 형성합니다.

HTML, CSS 및 JavaScript의 역할 : 핵심 책임 Apr 08, 2025 pm 07:05 PM

HTML은 웹 구조를 정의하고 CSS는 스타일과 레이아웃을 담당하며 JavaScript는 동적 상호 작용을 제공합니다. 세 사람은 웹 개발에서 의무를 수행하고 화려한 웹 사이트를 공동으로 구축합니다.

HTML의 시작 태그의 예는 무엇입니까? Apr 06, 2025 am 12:04 AM

anexampleStartingtaginhtmlis, whithbeginsaparagraph.startingtagsareessentialinhtmlastheyinitiate rements, definetheirtypes, andarecrucialforstructurituringwebpages 및 smanstlingthedom.

HTML, CSS 및 JavaScript : 웹 개발자를위한 필수 도구 Apr 09, 2025 am 12:12 AM

HTML, CSS 및 JavaScript는 웹 개발의 세 가지 기둥입니다. 1. HTML은 웹 페이지 구조를 정의하고 등과 같은 태그를 사용합니다. 2. CSS는 색상, 글꼴 크기 등과 같은 선택기 및 속성을 사용하여 웹 페이지 스타일을 제어합니다.

HTML : 구조, CSS : 스타일, 자바 스크립트 : 동작 Apr 18, 2025 am 12:09 AM

웹 개발에서 HTML, CSS 및 JavaScript의 역할은 다음과 같습니다. 1. HTML은 웹 페이지 구조를 정의하고, 2. CSS는 웹 페이지 스타일을 제어하고 3. JavaScript는 동적 동작을 추가합니다. 그들은 함께 현대 웹 사이트의 프레임 워크, 미학 및 상호 작용을 구축합니다.

HTML의 미래 : 웹 디자인의 진화 및 트렌드 Apr 17, 2025 am 12:12 AM

HTML의 미래는 무한한 가능성으로 가득합니다. 1) 새로운 기능과 표준에는 더 많은 의미 론적 태그와 WebComponents의 인기가 포함됩니다. 2) 웹 디자인 트렌드는 반응적이고 접근 가능한 디자인을 향해 계속 발전 할 것입니다. 3) 성능 최적화는 반응 형 이미지 로딩 및 게으른로드 기술을 통해 사용자 경험을 향상시킬 것입니다.

HTML, CSS 및 JavaScript의 미래 : 웹 개발 동향 Apr 19, 2025 am 12:02 AM

HTML의 미래 트렌드는 의미론 및 웹 구성 요소이며 CSS의 미래 트렌드는 CSS-In-JS 및 CSShoudini이며, JavaScript의 미래 트렌드는 WebAssembly 및 서버리스입니다. 1. HTML 시맨틱은 접근성과 SEO 효과를 향상시키고 웹 구성 요소는 개발 효율성을 향상 시키지만 브라우저 호환성에주의를 기울여야합니다. 2. CSS-in-JS는 스타일 관리 유연성을 향상 시키지만 파일 크기를 증가시킬 수 있습니다. CSShoudini는 CSS 렌더링의 직접 작동을 허용합니다. 3. Webosembly는 브라우저 애플리케이션 성능을 최적화하지만 가파른 학습 곡선을 가지고 있으며 서버리스는 개발을 단순화하지만 콜드 스타트 문제의 최적화가 필요합니다.

See all articles

zhihu-go 源码解析：用 goquery 解析 HTML_html/css_WEB-ITnose

创建 Document 对象

查找到指定节点

属性操作

迭代

删除节点、插入 HTML、导出 HTML

总结

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제