Apabila menggunakan Golang untuk menghuraikan fail csv, kadangkala anda akan menghadapi masalah aksara bercelaru. Keadaan ini sangat biasa, tetapi ia juga sangat menyusahkan. Jadi, bagaimana untuk menyelesaikan masalah ini?
Mula-mula kita mesti faham bahawa csv ialah format fail teks, menggunakan "," untuk memisahkan setiap medan. Apabila data teks dalam fail CSV mengandungi aksara bukan ASCII, aksara bercelaru akan berlaku. Punca masalah ini sebenarnya berkaitan dengan pengekodan Ia biasanya disebabkan oleh ketidakselarasan antara format pengekodan fail csv dan format pengekodan yang digunakan semasa menghurai.
Dalam golang, pustaka csv yang biasa digunakan ialah pengekodan/csv terbina dalam. Pustaka ini menggunakan pengekodan UTF-8 secara lalai untuk menghuraikan fail csv. Jika anda ingin memproses fail csv dalam format pengekodan lain, pemprosesan tambahan diperlukan.
Terdapat beberapa kaedah untuk menyelesaikan masalah aksara bercelaru Kami akan memperkenalkannya satu persatu di bawah:
Kaedah 1. Tukar format pengekodan secara manual
Sebelum menghuraikan. csv, kami boleh menukar secara manual Cara paling mudah untuk menukar format pengekodan fail csv kepada UTF-8 ialah menggunakan Notepad untuk membuka fail csv dan menyimpannya ke format UTF-8.
Penukaran manual mungkin menyusahkan, terutamanya apabila kami mempunyai sejumlah besar fail csv. Oleh itu, kita boleh mencuba kaedah kedua.
Kaedah 2. Gunakan pustaka pihak ketiga
Pustaka penghuraian csv biasa di Golang ialah pengekodan/csv Jika kita perlu memproses fail csv dalam format pengekodan lain, kita perlu menggunakan a perpustakaan pihak ketiga untuk membantu menghurai. Sebagai contoh, anda boleh menggunakan gocsv untuk menghuraikan fail csv dalam format pengekodan gbk.
Kaedah pemasangan Gocsv:
$ go get github.com/kuangyh/csv
Seterusnya, anda boleh menggunakan gocsv untuk menghuraikan fail csv seperti ini:
package main import ( "encoding/csv" "fmt" "github.com/kuangyh/csv" "os" ) func main() { file, err := os.Open("example.csv") if err != nil { fmt.Println("Error:", err) return } defer file.Close() reader := csv.NewReader(gocsv.NewReader(file)) reader.Comma = ',' lines, err := reader.ReadAll() if err != nil { fmt.Println("Error:", err) return } for i, line := range lines { fmt.Printf("Line %d: %v ", i+1, line) } }
Dalam kod di atas, kami mula-mula mengimport pustaka gocsv, kemudian menggunakan gocsv untuk mencipta pembaca baharu, menghantarnya ke pustaka pengekodan/csv dan tetapkan pembatas kepada ",". Akhir sekali, gunakan kaedah ReadAll untuk mendapatkan semua baris dalam fail dan mencetak output.
Walaupun kaedah ini berkesan, ia juga mempunyai beberapa masalah. Sebagai contoh, kita perlu menggunakan perpustakaan pihak ketiga untuk melengkapkan penukaran, yang akan meningkatkan kebergantungan dan kerumitan. Jika kita tidak mahu menggunakan perpustakaan pihak ketiga, terdapat kaedah ketiga.
Kaedah 3. Penghuraian manual
Proses penghuraian manual mungkin menyusahkan, tetapi ia juga merupakan penyelesaian yang berkesan. Perkara utama ialah memahami format fail csv.
Biasanya kami menambah pengepala fail pada baris pertama fail csv, yang mengandungi nama setiap medan. Pengepala fail ini juga merupakan sebahagian daripada fail csv dan boleh diperolehi dengan menghuraikan baris pertama. Dalam baris data, data setiap baris terdiri daripada berbilang medan dan medan ini dipisahkan dengan ",". Jika tiada masalah kod bercelaru, maka kami boleh menggunakan perpustakaan pengekodan/csv untuk menghuraikan fail csv secara terus. Tetapi jika aksara bercelaru berlaku, anda perlu menghuraikan setiap medan secara manual dan menukarnya ke dalam format UTF-8.
Berikut ialah kod penghuraian manual:
package main import ( "bufio" "encoding/csv" "fmt" "io" "os" ) func main() { file, err := os.Open("example.csv") if err != nil { fmt.Println("Error:", err) } defer file.Close() reader := bufio.NewReader(file) var lines [][]string for { line, err := reader.ReadString(' ') if err != nil && err != io.EOF { fmt.Println("Error:", err) return } if line == "" { break } // 去除换行符 line = line[:len(line)-2] r := csv.NewReader([]byte(line)) r.Comma = ',' fields, err := r.Read() if err != nil { fmt.Println("Error:", err) return } // 将字段转换为UTF-8 for i, s := range fields { fields[i] = transform(s) } lines = append(lines, fields) } for i, line := range lines { fmt.Printf("Line %d: %v ", i+1, line) } } // 将单个字段转换为UTF-8 func transform(s string) string { data, err := ioutil.ReadAll(transform.NewReader(strings.NewReader(s), simplifiedchinese.GBK.NewDecoder())) if err != nil { return s } return string(data) }
Dalam kod di atas, kami mula-mula membaca setiap baris fail csv melalui bufio, dan kemudian menggunakan perpustakaan pengekodan/csv untuk menghuraikan data setiap baris. Untuk menyelesaikan masalah bercelaru, kami menggunakan fungsi transform() untuk menukar setiap medan ke dalam format UTF-8.
Fungsi ini menerima parameter rentetan, mula-mula menukarnya kepada Pembaca, kemudian menggunakan simplifiedchinese.GBK.NewDecoder() untuk mencipta penyahkod, dan akhirnya menggunakan fungsi ioutil.ReadAll() untuk menukar rentetan yang dikodkan kepada UTF -8.
Dengan cara ini, kami boleh menghuraikan fail csv secara manual dan menukarnya kepada format yang dikodkan UTF-8.
Ringkasan:
Di atas adalah tiga kaedah untuk menyelesaikan masalah golang csv menghuraikan aksara bercelaru. Jika fail csv yang anda gunakan dikodkan UTF-8, ia boleh dihuraikan dengan mudah menggunakan pengekodan/csv golang sendiri. Jika tidak, anda boleh memilih untuk menghuraikan secara manual atau menggunakan pustaka pihak ketiga untuk penukaran mengikut keperluan sebenar. Walau apa pun, selagi anda menguasai kaedah yang betul, masalah watak bercelaru tidak lagi menjadi masalah.
Atas ialah kandungan terperinci golang csv menghuraikan aksara bercelaru. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!