golang csv menghuraikan aksara bercelaru
Apabila menggunakan Golang untuk menghuraikan fail csv, kadangkala anda akan menghadapi masalah aksara bercelaru. Keadaan ini sangat biasa, tetapi ia juga sangat menyusahkan. Jadi, bagaimana untuk menyelesaikan masalah ini?
Mula-mula kita mesti faham bahawa csv ialah format fail teks, menggunakan "," untuk memisahkan setiap medan. Apabila data teks dalam fail CSV mengandungi aksara bukan ASCII, aksara bercelaru akan berlaku. Punca masalah ini sebenarnya berkaitan dengan pengekodan Ia biasanya disebabkan oleh ketidakselarasan antara format pengekodan fail csv dan format pengekodan yang digunakan semasa menghurai.
Dalam golang, pustaka csv yang biasa digunakan ialah pengekodan/csv terbina dalam. Pustaka ini menggunakan pengekodan UTF-8 secara lalai untuk menghuraikan fail csv. Jika anda ingin memproses fail csv dalam format pengekodan lain, pemprosesan tambahan diperlukan.
Terdapat beberapa kaedah untuk menyelesaikan masalah aksara bercelaru Kami akan memperkenalkannya satu persatu di bawah:
Kaedah 1. Tukar format pengekodan secara manual
Sebelum menghuraikan. csv, kami boleh menukar secara manual Cara paling mudah untuk menukar format pengekodan fail csv kepada UTF-8 ialah menggunakan Notepad untuk membuka fail csv dan menyimpannya ke format UTF-8.
Penukaran manual mungkin menyusahkan, terutamanya apabila kami mempunyai sejumlah besar fail csv. Oleh itu, kita boleh mencuba kaedah kedua.
Kaedah 2. Gunakan pustaka pihak ketiga
Pustaka penghuraian csv biasa di Golang ialah pengekodan/csv Jika kita perlu memproses fail csv dalam format pengekodan lain, kita perlu menggunakan a perpustakaan pihak ketiga untuk membantu menghurai. Sebagai contoh, anda boleh menggunakan gocsv untuk menghuraikan fail csv dalam format pengekodan gbk.
Kaedah pemasangan Gocsv:
$ go get github.com/kuangyh/csv
Seterusnya, anda boleh menggunakan gocsv untuk menghuraikan fail csv seperti ini:
package main import ( "encoding/csv" "fmt" "github.com/kuangyh/csv" "os" ) func main() { file, err := os.Open("example.csv") if err != nil { fmt.Println("Error:", err) return } defer file.Close() reader := csv.NewReader(gocsv.NewReader(file)) reader.Comma = ',' lines, err := reader.ReadAll() if err != nil { fmt.Println("Error:", err) return } for i, line := range lines { fmt.Printf("Line %d: %v ", i+1, line) } }
Dalam kod di atas, kami mula-mula mengimport pustaka gocsv, kemudian menggunakan gocsv untuk mencipta pembaca baharu, menghantarnya ke pustaka pengekodan/csv dan tetapkan pembatas kepada ",". Akhir sekali, gunakan kaedah ReadAll untuk mendapatkan semua baris dalam fail dan mencetak output.
Walaupun kaedah ini berkesan, ia juga mempunyai beberapa masalah. Sebagai contoh, kita perlu menggunakan perpustakaan pihak ketiga untuk melengkapkan penukaran, yang akan meningkatkan kebergantungan dan kerumitan. Jika kita tidak mahu menggunakan perpustakaan pihak ketiga, terdapat kaedah ketiga.
Kaedah 3. Penghuraian manual
Proses penghuraian manual mungkin menyusahkan, tetapi ia juga merupakan penyelesaian yang berkesan. Perkara utama ialah memahami format fail csv.
Biasanya kami menambah pengepala fail pada baris pertama fail csv, yang mengandungi nama setiap medan. Pengepala fail ini juga merupakan sebahagian daripada fail csv dan boleh diperolehi dengan menghuraikan baris pertama. Dalam baris data, data setiap baris terdiri daripada berbilang medan dan medan ini dipisahkan dengan ",". Jika tiada masalah kod bercelaru, maka kami boleh menggunakan perpustakaan pengekodan/csv untuk menghuraikan fail csv secara terus. Tetapi jika aksara bercelaru berlaku, anda perlu menghuraikan setiap medan secara manual dan menukarnya ke dalam format UTF-8.
Berikut ialah kod penghuraian manual:
package main import ( "bufio" "encoding/csv" "fmt" "io" "os" ) func main() { file, err := os.Open("example.csv") if err != nil { fmt.Println("Error:", err) } defer file.Close() reader := bufio.NewReader(file) var lines [][]string for { line, err := reader.ReadString(' ') if err != nil && err != io.EOF { fmt.Println("Error:", err) return } if line == "" { break } // 去除换行符 line = line[:len(line)-2] r := csv.NewReader([]byte(line)) r.Comma = ',' fields, err := r.Read() if err != nil { fmt.Println("Error:", err) return } // 将字段转换为UTF-8 for i, s := range fields { fields[i] = transform(s) } lines = append(lines, fields) } for i, line := range lines { fmt.Printf("Line %d: %v ", i+1, line) } } // 将单个字段转换为UTF-8 func transform(s string) string { data, err := ioutil.ReadAll(transform.NewReader(strings.NewReader(s), simplifiedchinese.GBK.NewDecoder())) if err != nil { return s } return string(data) }
Dalam kod di atas, kami mula-mula membaca setiap baris fail csv melalui bufio, dan kemudian menggunakan perpustakaan pengekodan/csv untuk menghuraikan data setiap baris. Untuk menyelesaikan masalah bercelaru, kami menggunakan fungsi transform() untuk menukar setiap medan ke dalam format UTF-8.
Fungsi ini menerima parameter rentetan, mula-mula menukarnya kepada Pembaca, kemudian menggunakan simplifiedchinese.GBK.NewDecoder() untuk mencipta penyahkod, dan akhirnya menggunakan fungsi ioutil.ReadAll() untuk menukar rentetan yang dikodkan kepada UTF -8.
Dengan cara ini, kami boleh menghuraikan fail csv secara manual dan menukarnya kepada format yang dikodkan UTF-8.
Ringkasan:
Di atas adalah tiga kaedah untuk menyelesaikan masalah golang csv menghuraikan aksara bercelaru. Jika fail csv yang anda gunakan dikodkan UTF-8, ia boleh dihuraikan dengan mudah menggunakan pengekodan/csv golang sendiri. Jika tidak, anda boleh memilih untuk menghuraikan secara manual atau menggunakan pustaka pihak ketiga untuk penukaran mengikut keperluan sebenar. Walau apa pun, selagi anda menguasai kaedah yang betul, masalah watak bercelaru tidak lagi menjadi masalah.
Atas ialah kandungan terperinci golang csv menghuraikan aksara bercelaru. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Artikel ini menerangkan mekanisme import pakej Go: Dinamakan import (mis., Import & quot; fmt & quot;) dan import kosong (mis., Import _ & quot; fmt & quot;). Dinamakan import membuat kandungan pakej boleh diakses, sementara import kosong hanya melaksanakan t

Artikel ini menerangkan fungsi Newflash () Beego untuk pemindahan data antara halaman dalam aplikasi web. Ia memberi tumpuan kepada menggunakan NewFlash () untuk memaparkan mesej sementara (kejayaan, kesilapan, amaran) antara pengawal, memanfaatkan mekanisme sesi. Limita

Artikel ini memperincikan penukaran yang cekap hasil pertanyaan MySQL ke dalam kepingan struct go. Ia menekankan menggunakan kaedah imbasan pangkalan data/SQL untuk prestasi optimum, mengelakkan parsing manual. Amalan terbaik untuk pemetaan medan struct menggunakan tag db dan robus

Artikel ini menunjukkan penciptaan dan stub di GO untuk ujian unit. Ia menekankan penggunaan antara muka, menyediakan contoh pelaksanaan mengejek, dan membincangkan amalan terbaik seperti menjaga mocks fokus dan menggunakan perpustakaan penegasan. Articl

Artikel ini meneroka kekangan jenis adat Go untuk generik. Ia memperincikan bagaimana antara muka menentukan keperluan jenis minimum untuk fungsi generik, meningkatkan keselamatan jenis dan kebolehgunaan semula kod. Artikel ini juga membincangkan batasan dan amalan terbaik

Artikel ini memperincikan penulisan fail yang cekap di GO, membandingkan OS.WriteFile (sesuai untuk fail kecil) dengan os.openfile dan buffered menulis (optimum untuk fail besar). Ia menekankan pengendalian ralat yang teguh, menggunakan penangguhan, dan memeriksa kesilapan tertentu.

Artikel ini membincangkan ujian unit menulis di GO, meliputi amalan terbaik, teknik mengejek, dan alat untuk pengurusan ujian yang cekap.

Artikel ini meneroka menggunakan alat pengesanan untuk menganalisis aliran pelaksanaan aplikasi GO. Ia membincangkan teknik instrumentasi manual dan automatik, membandingkan alat seperti Jaeger, Zipkin, dan OpenTelemetry, dan menonjolkan visualisasi data yang berkesan
