golang怎麼去除html-Golang-PHP中文網

golang怎麼去除html

PHPz

發布： 2023-04-27 14:46:14

原創

1367 人瀏覽過

Go 語言實戰：如何移除 HTML 標籤？

在 Web 開發中，我們常常需要移除 HTML 標籤以取得純文字內容，例如對評論、文章等內容的分析處理。對於這個需求，Go 語言提供了多種方法，本文將為你介紹其中幾種方法。

方法一：使用字串替換

Go 語言提供了 strings 套件來操作字串。我們可以使用 strings.ReplaceAll() 方法來將 HTML 標籤替換為空白字符，從而得到純文字內容。具體實作程式碼如下：

package main

import (
    "fmt"
    "strings"
)

func main() {
    html := "<html><head><title>Test Page</title></head><body><p>Hello, Go!</p></body></html>"

    // 使用 strings.ReplaceAll() 将 HTML 标签替换为空白字符
    text := strings.ReplaceAll(html, "<", " <")
    text = strings.ReplaceAll(text, ">", "> ")
    text = strings.TrimSpace(strings.Join(strings.Fields(text), " "))

    fmt.Println(text)
}

登入後複製

上述程式碼中，我們先使用strings.ReplaceAll() 方法將所有左尖括號（“<”）替換為空格左尖括號，將所有右尖括號（“ >」）替換為右尖括號空格的形式，即將標籤與文字之間新增一個空格的間隔，方便後續使用strings.Fields() 方法將該字串分割為多個子字串。接著，我們使用strings.Fields() 方法將字串拆分為多個子字串，再使用strings.Join() 將這些子字串以空白字元連接起來，最後使用strings.TrimSpace() 方法去除字串兩端的空白字符，得到最終的純文字內容。

執行上述程式碼，輸出如下：

Test Page Hello, Go!

登入後複製

上述程式碼實作簡單，但有下列問題：

如果HTML 標籤包含屬性，例如Google，我們需要在左右尖括號之間添加空白字符，否則替換後的字符串中鏈接文本"Google" 與左右尖括號緊貼在一起，使結果不易閱讀。
如果 HTML 標籤內容過多，例如包含 JavaScript、CSS 等，替換速度會比較慢。

考慮到這些問題，我們可以使用第二種方法。

方法二：使用 Goquery 函式庫

Goquery 是 Go 語言的一個 HTML 解析和操作函式庫，提供了方便且靈活的 API。我們可以使用 Goquery 函式庫解析 HTML，篩選文字節點，從而得到純文字內容。具體實作程式碼如下：

package main

import (
    "fmt"
    "strings"

    "github.com/PuerkitoBio/goquery"
)

func main() {
    html := "<html><head><title>Test Page</title></head><body><p>Hello, Go!</p></body></html>"
    doc, _ := goquery.NewDocumentFromReader(strings.NewReader(html))

    // 筛选文本节点
    var text string
    doc.Find(":not(script):not(style)").Each(func(_ int, sel *goquery.Selection) {
        if sel.Children().Length() == 0 {
            text += sel.Text() + " "
        }
    })

    fmt.Println(strings.TrimSpace(text))
}

登入後複製

上述程式碼中，我們使用 goquery.NewDocumentFromReader() 方法將 HTML 轉換為 goquery.Document 物件。接著，我們使用 doc.Find() 方法選擇除 script 和 style 標籤外的所有節點，使用 sel.Children().Length() 方法判斷目前節點是否為文字節點，若是則將其內容新增至 text 變數。最後使用 strings.TrimSpace() 方法去除字串兩端的空白字符，得到最終的純文字內容。

執行上述程式碼，輸出如下：