Rumah pembangunan bahagian belakang Golang golang csv menghuraikan aksara bercelaru

golang csv menghuraikan aksara bercelaru

May 15, 2023 am 09:13 AM

Apabila menggunakan Golang untuk menghuraikan fail csv, kadangkala anda akan menghadapi masalah aksara bercelaru. Keadaan ini sangat biasa, tetapi ia juga sangat menyusahkan. Jadi, bagaimana untuk menyelesaikan masalah ini?

Mula-mula kita mesti faham bahawa csv ialah format fail teks, menggunakan "," untuk memisahkan setiap medan. Apabila data teks dalam fail CSV mengandungi aksara bukan ASCII, aksara bercelaru akan berlaku. Punca masalah ini sebenarnya berkaitan dengan pengekodan Ia biasanya disebabkan oleh ketidakselarasan antara format pengekodan fail csv dan format pengekodan yang digunakan semasa menghurai.

Dalam golang, pustaka csv yang biasa digunakan ialah pengekodan/csv terbina dalam. Pustaka ini menggunakan pengekodan UTF-8 secara lalai untuk menghuraikan fail csv. Jika anda ingin memproses fail csv dalam format pengekodan lain, pemprosesan tambahan diperlukan.

Terdapat beberapa kaedah untuk menyelesaikan masalah aksara bercelaru Kami akan memperkenalkannya satu persatu di bawah:

Kaedah 1. Tukar format pengekodan secara manual

Sebelum menghuraikan. csv, kami boleh menukar secara manual Cara paling mudah untuk menukar format pengekodan fail csv kepada UTF-8 ialah menggunakan Notepad untuk membuka fail csv dan menyimpannya ke format UTF-8.

Penukaran manual mungkin menyusahkan, terutamanya apabila kami mempunyai sejumlah besar fail csv. Oleh itu, kita boleh mencuba kaedah kedua.

Kaedah 2. Gunakan pustaka pihak ketiga

Pustaka penghuraian csv biasa di Golang ialah pengekodan/csv Jika kita perlu memproses fail csv dalam format pengekodan lain, kita perlu menggunakan a perpustakaan pihak ketiga untuk membantu menghurai. Sebagai contoh, anda boleh menggunakan gocsv untuk menghuraikan fail csv dalam format pengekodan gbk.

Kaedah pemasangan Gocsv:

$ go get github.com/kuangyh/csv

Seterusnya, anda boleh menggunakan gocsv untuk menghuraikan fail csv seperti ini:

package main

import (
    "encoding/csv"
    "fmt"
    "github.com/kuangyh/csv"
    "os"
)

func main() {
    file, err := os.Open("example.csv")
    if err != nil {
        fmt.Println("Error:", err)
        return
    }

    defer file.Close()

    reader := csv.NewReader(gocsv.NewReader(file))
    reader.Comma = ','

    lines, err := reader.ReadAll()
    if err != nil {
        fmt.Println("Error:", err)
        return
    }

    for i, line := range lines {
        fmt.Printf("Line %d: %v
", i+1, line)
    }
}
Salin selepas log masuk

Dalam kod di atas, kami mula-mula mengimport pustaka gocsv, kemudian menggunakan gocsv untuk mencipta pembaca baharu, menghantarnya ke pustaka pengekodan/csv dan tetapkan pembatas kepada ",". Akhir sekali, gunakan kaedah ReadAll untuk mendapatkan semua baris dalam fail dan mencetak output.

Walaupun kaedah ini berkesan, ia juga mempunyai beberapa masalah. Sebagai contoh, kita perlu menggunakan perpustakaan pihak ketiga untuk melengkapkan penukaran, yang akan meningkatkan kebergantungan dan kerumitan. Jika kita tidak mahu menggunakan perpustakaan pihak ketiga, terdapat kaedah ketiga.

Kaedah 3. Penghuraian manual

Proses penghuraian manual mungkin menyusahkan, tetapi ia juga merupakan penyelesaian yang berkesan. Perkara utama ialah memahami format fail csv.

Biasanya kami menambah pengepala fail pada baris pertama fail csv, yang mengandungi nama setiap medan. Pengepala fail ini juga merupakan sebahagian daripada fail csv dan boleh diperolehi dengan menghuraikan baris pertama. Dalam baris data, data setiap baris terdiri daripada berbilang medan dan medan ini dipisahkan dengan ",". Jika tiada masalah kod bercelaru, maka kami boleh menggunakan perpustakaan pengekodan/csv untuk menghuraikan fail csv secara terus. Tetapi jika aksara bercelaru berlaku, anda perlu menghuraikan setiap medan secara manual dan menukarnya ke dalam format UTF-8.

Berikut ialah kod penghuraian manual:

package main

import (
    "bufio"
    "encoding/csv"
    "fmt"
    "io"
    "os"
)

func main() {
    file, err := os.Open("example.csv")
    if err != nil {
        fmt.Println("Error:", err)
    }
    defer file.Close()

    reader := bufio.NewReader(file)
    var lines [][]string

    for {
        line, err := reader.ReadString('
')
        if err != nil && err != io.EOF {
            fmt.Println("Error:", err)
            return
        }

        if line == "" {
            break
        }

        // 去除换行符
        line = line[:len(line)-2]

        r := csv.NewReader([]byte(line))
        r.Comma = ','

        fields, err := r.Read()
        if err != nil {
            fmt.Println("Error:", err)
            return
        }

        // 将字段转换为UTF-8
        for i, s := range fields {
            fields[i] = transform(s)
        }

        lines = append(lines, fields)
    }

    for i, line := range lines {
        fmt.Printf("Line %d: %v
", i+1, line)
    }
}

// 将单个字段转换为UTF-8
func transform(s string) string {
    data, err := ioutil.ReadAll(transform.NewReader(strings.NewReader(s), simplifiedchinese.GBK.NewDecoder()))
    if err != nil {
        return s
    }
    return string(data)
}
Salin selepas log masuk

Dalam kod di atas, kami mula-mula membaca setiap baris fail csv melalui bufio, dan kemudian menggunakan perpustakaan pengekodan/csv untuk menghuraikan data setiap baris. Untuk menyelesaikan masalah bercelaru, kami menggunakan fungsi transform() untuk menukar setiap medan ke dalam format UTF-8.

Fungsi ini menerima parameter rentetan, mula-mula menukarnya kepada Pembaca, kemudian menggunakan simplifiedchinese.GBK.NewDecoder() untuk mencipta penyahkod, dan akhirnya menggunakan fungsi ioutil.ReadAll() untuk menukar rentetan yang dikodkan kepada UTF -8.

Dengan cara ini, kami boleh menghuraikan fail csv secara manual dan menukarnya kepada format yang dikodkan UTF-8.

Ringkasan:

Di atas adalah tiga kaedah untuk menyelesaikan masalah golang csv menghuraikan aksara bercelaru. Jika fail csv yang anda gunakan dikodkan UTF-8, ia boleh dihuraikan dengan mudah menggunakan pengekodan/csv golang sendiri. Jika tidak, anda boleh memilih untuk menghuraikan secara manual atau menggunakan pustaka pihak ketiga untuk penukaran mengikut keperluan sebenar. Walau apa pun, selagi anda menguasai kaedah yang betul, masalah watak bercelaru tidak lagi menjadi masalah.

Atas ialah kandungan terperinci golang csv menghuraikan aksara bercelaru. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

GO Language Pack Import: Apakah perbezaan antara garis bawah dan tanpa garis bawah? GO Language Pack Import: Apakah perbezaan antara garis bawah dan tanpa garis bawah? Mar 03, 2025 pm 05:17 PM

Artikel ini menerangkan mekanisme import pakej Go: Dinamakan import (mis., Import & quot; fmt & quot;) dan import kosong (mis., Import _ & quot; fmt & quot;). Dinamakan import membuat kandungan pakej boleh diakses, sementara import kosong hanya melaksanakan t

Bagaimana untuk melaksanakan pemindahan maklumat jangka pendek antara halaman dalam kerangka beego? Bagaimana untuk melaksanakan pemindahan maklumat jangka pendek antara halaman dalam kerangka beego? Mar 03, 2025 pm 05:22 PM

Artikel ini menerangkan fungsi Newflash () Beego untuk pemindahan data antara halaman dalam aplikasi web. Ia memberi tumpuan kepada menggunakan NewFlash () untuk memaparkan mesej sementara (kejayaan, kesilapan, amaran) antara pengawal, memanfaatkan mekanisme sesi. Limita

Bagaimana cara menukar senarai hasil pertanyaan mysql ke dalam slice struktur tersuai dalam bahasa Go? Bagaimana cara menukar senarai hasil pertanyaan mysql ke dalam slice struktur tersuai dalam bahasa Go? Mar 03, 2025 pm 05:18 PM

Artikel ini memperincikan penukaran yang cekap hasil pertanyaan MySQL ke dalam kepingan struct go. Ia menekankan menggunakan kaedah imbasan pangkalan data/SQL untuk prestasi optimum, mengelakkan parsing manual. Amalan terbaik untuk pemetaan medan struct menggunakan tag db dan robus

Bagaimana saya menulis objek dan stub untuk ujian di GO? Bagaimana saya menulis objek dan stub untuk ujian di GO? Mar 10, 2025 pm 05:38 PM

Artikel ini menunjukkan penciptaan dan stub di GO untuk ujian unit. Ia menekankan penggunaan antara muka, menyediakan contoh pelaksanaan mengejek, dan membincangkan amalan terbaik seperti menjaga mocks fokus dan menggunakan perpustakaan penegasan. Articl

Bagaimana saya boleh menentukan kekangan jenis tersuai untuk generik di GO? Bagaimana saya boleh menentukan kekangan jenis tersuai untuk generik di GO? Mar 10, 2025 pm 03:20 PM

Artikel ini meneroka kekangan jenis adat Go untuk generik. Ia memperincikan bagaimana antara muka menentukan keperluan jenis minimum untuk fungsi generik, meningkatkan keselamatan jenis dan kebolehgunaan semula kod. Artikel ini juga membincangkan batasan dan amalan terbaik

Bagaimana cara menulis fail dalam bahasa Go dengan mudah? Bagaimana cara menulis fail dalam bahasa Go dengan mudah? Mar 03, 2025 pm 05:15 PM

Artikel ini memperincikan penulisan fail yang cekap di GO, membandingkan OS.WriteFile (sesuai untuk fail kecil) dengan os.openfile dan buffered menulis (optimum untuk fail besar). Ia menekankan pengendalian ralat yang teguh, menggunakan penangguhan, dan memeriksa kesilapan tertentu.

Bagaimana anda menulis ujian unit di GO? Bagaimana anda menulis ujian unit di GO? Mar 21, 2025 pm 06:34 PM

Artikel ini membincangkan ujian unit menulis di GO, meliputi amalan terbaik, teknik mengejek, dan alat untuk pengurusan ujian yang cekap.

Bagaimana saya boleh menggunakan alat pengesanan untuk memahami aliran pelaksanaan aplikasi saya? Bagaimana saya boleh menggunakan alat pengesanan untuk memahami aliran pelaksanaan aplikasi saya? Mar 10, 2025 pm 05:36 PM

Artikel ini meneroka menggunakan alat pengesanan untuk menganalisis aliran pelaksanaan aplikasi GO. Ia membincangkan teknik instrumentasi manual dan automatik, membandingkan alat seperti Jaeger, Zipkin, dan OpenTelemetry, dan menonjolkan visualisasi data yang berkesan

See all articles