在Go 中讀取非UTF-8 文字檔案
在Go 中讀取和寫入非UTF-8 文字檔案可能具有挑戰性,因為標準庫採用UTF-8 編碼。本文解決了這個問題,並提供了使用 Go 子儲存庫的全面解決方案。
問題:
我們如何讀取以非 UTF-8 格式編碼的文字文件,如GBK,在去嗎?
解決方案:
要讀取非 UTF-8 編碼的文件,我們使用 golang.org/x/text/encoding 套件。這個包定義了一個通用字元編碼的接口,方便與 UTF-8 之間的轉換。
特別是,對於 GBK 編碼,我們使用 golang.org/x/text/encoding/simplifiedchinese 子包,提供GB18030、GBK、HZ-GB2312編碼實作。這些實作實現了encoding.Encoding介面。
實作:
這裡有一個範例,示範GBK編碼的讀寫檔案:
package main import ( "bufio" "fmt" "log" "os" "golang.org/x/text/encoding/simplifiedchinese" "golang.org/x/text/transform" ) var enc = simplifiedchinese.GBK func main() { // Example filename const filename = "example_GBK_file" exampleWriteGBK(filename) exampleReadGBK(filename) } func exampleReadGBK(filename string) { f, err := os.Open(filename) if err != nil { log.Fatal(err) } // Convert GBK to UTF-8 on the fly r := transform.NewReader(f, enc.NewDecoder()) sc := bufio.NewScanner(r) for sc.Scan() { fmt.Printf("Read line: %s\n", sc.Bytes()) } if err := sc.Err(); err != nil { log.Fatal(err) } } func exampleWriteGBK(filename string) { f, err := os.Create(filename) if err != nil { log.Fatal(err) } w := transform.NewWriter(f, enc.NewEncoder()) // Example text with Chinese characters _, err = fmt.Fprintln(w, `In 1995, China National Information Technology Standardization Technical Committee set down the Chinese Internal Code Specification (Chinese: 汉字内码扩展规范(GBK); pinyin: Hànzì Nèimǎ Kuòzhǎn Guīfàn (GBK)), Version 1.0, known as GBK 1.0, which is a slight extension of Codepage 936. The newly added 95 characters were not found in GB 13000.1-1993, and were provisionally assigned Unicode PUA code points.`) if err != nil { log.Fatal(err) } }
遊樂場:
https://go.dev/play/p/fFIy9VES6cL
以上是如何在Go中讀取非UTF-8編碼的文字檔案(例如GBK)?的詳細內容。更多資訊請關注PHP中文網其他相關文章!