将 UTF-16 文本文件读取为字节时使用标准输入法读取数组时,文件的 UTF-16 编码字符可能无法正确解释。这可能会导致字节被视为 ASCII,从而导致不正确的字符串表示。
要正确读取 UTF-16 文本文件,使用以下命令至关重要专门设计用于处理 UTF-16 编码的方法。 golang.org/x/text/encoding/unicode 包为此目的提供了必要的功能。
func ReadFileUTF16(filename string) ([]byte, error) { // Read the file into a byte array raw, err := ioutil.ReadFile(filename) if err != nil { return nil, err } // Create a transformer that converts MS-Windows default to UTF8 win16be := unicode.UTF16(unicode.BigEndian, unicode.IgnoreBOM) // Override the BOM to ensure it is respected utf16bom := unicode.BOMOverride(win16be.NewDecoder()) // Apply the transformer to the input byte array unicodeReader := transform.NewReader(bytes.NewReader(raw), utf16bom) // Decode the data into a new byte array decoded, err := ioutil.ReadAll(unicodeReader) return decoded, err }
对于读取整个文件不可行的情况,以下函数创建一个使用相同 UTF-16 解码的扫描器逻辑:
func NewScannerUTF16(filename string) (utfScanner, error) { // Read the file into a []byte file, err := os.Open(filename) if err != nil { return nil, err } // Create a transformer that converts MS-Windows default to UTF8 win16be := unicode.UTF16(unicode.BigEndian, unicode.IgnoreBOM) // Override the BOM to ensure it is respected utf16bom := unicode.BOMOverride(win16be.NewDecoder()) // Apply the transformer to the input file unicodeReader := transform.NewReader(file, utf16bom) return unicodeReader, nil }
golang.org/x/text/encoding/unicode 包智能地解释字节顺序标记 (BOM) 以确定中使用的编码文件。但需要注意的是,bufio 包的 ReadLine 函数不支持 Unicode 解码。
有关 UTF-16 解码的其他自定义和选项,请参阅开源模块位于 https://github.com/TomOnTime/utfutil/。
以上是如何在 Go 中正确读取 UTF-16 文本文件作为字符串?的详细内容。更多信息请关注PHP中文网其他相关文章!