golang.org/x/net/html
, github .com/PuerkitoBio/goquery
etc. Diese Tools stellen eine Reihe von Methoden und Strukturen zum Parsen, Durchlaufen und Ändern von HTML-Dokumenten bereit. golang.org/x/net/html
、github.com/PuerkitoBio/goquery
等。这些工具提供了一系列方法和结构,用于解析、遍历和修改 HTML 文档。
<p>2.1 使用 golang.org/x/net/html
<p>golang.org/x/net/html
是 Go 语言提供的一个标准的库,它提供了一个丰富的 API 来解析 HTML 文档。接下来,我们将演示如何使用该库来查询 HTML 文档中的节点数据。
<p>下面是一个简单的 HTML 文档:<!DOCTYPE html> <html> <head> <title>A Simple HTML Document</title> </head> <body> <h1>This is a heading</h1> <p>This is a paragraph.</p> <p>This is another paragraph.</p> </body> </html>
<p>
标签)的文本内容。首先,我们需要将 HTML 文档解析为 DOM 树结构,然后通过递归遍历 DOM 树来查询节点数据。package main import ( "fmt" "golang.org/x/net/html" "strings" ) var htmlString = ` <!DOCTYPE html> <html> <head> <title>A Simple HTML Document</title> </head> <body> <h1>This is a heading</h1> <p>This is a paragraph.</p> <p>This is another paragraph.</p> </body> </html> ` func main() { reader := strings.NewReader(htmlString) doc, err := html.Parse(reader) if err != nil { fmt.Println("Failed to parse HTML string:", err) return } var find func(*html.Node) find = func(n *html.Node) { if n.Type == html.ElementNode && n.Data == "p" { fmt.Println(n.FirstChild.Data) } else { for c := n.FirstChild; c != nil; c = c.NextSibling { find(c) } } } find(doc) }
strings.NewReader()
将字符串转换为 io.Reader 接口类型,并将其传递给 html.Parse()
函数来解析 HTML 文档。然后,我们定义了一个名为 find()
的递归函数,用于遍历 DOM 树,并查找符合条件的节点。当遇到一个段落节点时,我们输出该节点的文本内容。最后,我们调用 find()
函数来查询并输出所有段落节点的文本内容。<p>2.2 使用 github.com/PuerkitoBio/goquery
<p>github.com/PuerkitoBio/goquery
是一个很受欢迎的 Go 语言库,它为 HTML 解析和查询提供了一种简单且方便的方式。我们可以使用 goquery
来遍历并查询 HTML 文档,而无需深入了解 DOM 树的结构。<p>下面是一个示例 HTML 文档:<!DOCTYPE html> <html> <head> <title>A Simple HTML Document</title> </head> <body> <h1>This is a heading</h1> <p>This is a paragraph.</p> <p>This is another paragraph.</p> </body> </html>
goquery
可以轻松实现:package main import ( "fmt" "github.com/PuerkitoBio/goquery" "strings" ) var htmlString = ` <!DOCTYPE html> <html> <head> <title>A Simple HTML Document</title> </head> <body> <h1>This is a heading</h1> <p>This is a paragraph.</p> <p>This is another paragraph.</p> </body> </html> ` func main() { reader := strings.NewReader(htmlString) doc, err := goquery.NewDocumentFromReader(reader) if err != nil { fmt.Println("Failed to parse HTML string:", err) return } doc.Find("p").Each(func(i int, s *goquery.Selection) { fmt.Println(s.Text()) }) }
strings.NewReader()
将字符串转换为 io.Reader 接口类型,并将其传递给 goquery.NewDocumentFromReader()
函数来解析 HTML 文档。然后,我们使用 doc.Find("p")
来查询所有段落节点,并通过 s.Text()
方法来输出其文本内容。
<p>三、总结
<p>本文介绍了 Go 语言中如何查询 HTML 文档的内容。我们探讨了两种不同的方法,分别是使用 golang.org/x/net/html
和 github.com/PuerkitoBio/goquery
2.1 Verwendung golang.org/x/net/html
🎜🎜golang.org/x/net/html
ist eine Standardbibliothek, die von der Go-Sprache bereitgestellt wird Eine umfangreiche API zum Parsen von HTML-Dokumenten. Als Nächstes demonstrieren wir, wie Sie die Bibliothek verwenden, um Knotendaten in einem HTML-Dokument abzufragen. 🎜🎜Das Folgende ist ein einfaches HTML-Dokument: 🎜rrreee🎜Wir wollen nun den Textinhalt aller Absatzknoten (<p>
-Tags) in diesem Dokument abfragen. Zuerst müssen wir das HTML-Dokument in eine DOM-Baumstruktur analysieren und dann die Knotendaten abfragen, indem wir den DOM-Baum rekursiv durchlaufen. 🎜rrreee🎜Im obigen Code verwenden wir strings.NewReader()
, um den String in den Schnittstellentyp io.Reader zu konvertieren und ihn an die Funktion html.Parse()
zu übergeben HTML-Dokumente analysieren. Dann definieren wir eine rekursive Funktion namens find()
, die den DOM-Baum durchläuft und Knoten findet, die die Kriterien erfüllen. Wenn ein Absatzknoten gefunden wird, geben wir den Textinhalt dieses Knotens aus. Abschließend rufen wir die Funktion find()
auf, um den Textinhalt aller Absatzknoten abzufragen und auszugeben. 🎜🎜2.2 Verwendung von github.com/PuekitoBio/goquery
🎜🎜github.com/PuerkitoBio/goquery
ist eine beliebte Go-Sprachbibliothek, die HTML analysiert und abfragt. Bietet eine einfache und bequeme Möglichkeit Weg. Wir können goquery
verwenden, um HTML-Dokumente zu durchlaufen und abzufragen, ohne die Struktur des DOM-Baums verstehen zu müssen. 🎜🎜Das Folgende ist ein Beispiel-HTML-Dokument: 🎜rrreee🎜Wir wollen nun den Textinhalt aller Absatzknoten im Dokument abfragen, was leicht mit goquery
erreicht werden kann: 🎜rrreee🎜Im obigen Beispiel Code verwenden wir strings.NewReader() Konvertiert den String in den Schnittstellentyp io.Reader und übergibt ihn an die Funktion goquery.NewDocumentFromReader()
, um das HTML-Dokument zu analysieren. Dann verwenden wir doc.Find("p")
, um alle Absatzknoten abzufragen und ihren Textinhalt über die Methode s.Text()
auszugeben. 🎜🎜3. Zusammenfassung🎜🎜In diesem Artikel wird erläutert, wie der Inhalt von HTML-Dokumenten in der Go-Sprache abgefragt wird. Wir haben zwei verschiedene Ansätze untersucht, nämlich golang.org/x/net/html
und github.com/PuerkitoBio/goquery
. Diese Tools können nicht nur HTML-Dokumente analysieren, sondern bieten auch eine umfangreiche API zum Durchlaufen und Bearbeiten des DOM-Baums. Unabhängig davon, für welche Methode Sie sich entscheiden, können Sie problemlos Daten aus HTML-Dokumenten abrufen und so elegantere und effizientere Anwendungen erstellen. 🎜Das obige ist der detaillierte Inhalt vonGolang-Abfrage-HTML. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!