Heim Backend-Entwicklung Golang Golang CSV analysiert verstümmelte Zeichen

Golang CSV analysiert verstümmelte Zeichen

May 15, 2023 am 09:13 AM

Wenn Sie Golang zum Parsen von CSV-Dateien verwenden, treten manchmal Probleme mit verstümmelten Zeichen auf. Diese Situation kommt sehr häufig vor, ist aber auch sehr problematisch. Wie kann man dieses Problem lösen?

Zuerst müssen wir verstehen, dass csv ein Textdateiformat ist, bei dem jedes Feld durch „“ getrennt wird. Wenn die Textdaten in der CSV-Datei Nicht-ASCII-Zeichen enthalten, treten verstümmelte Zeichen auf. Die Ursache dieses Problems hängt tatsächlich mit der Kodierung zusammen. Es wird normalerweise durch die Inkonsistenz zwischen dem Kodierungsformat der CSV-Datei und dem beim Parsen verwendeten Kodierungsformat verursacht.

In Golang ist die häufig verwendete CSV-Bibliothek die integrierte Kodierung/CSV. Diese Bibliothek verwendet standardmäßig die UTF-8-Codierung zum Parsen von CSV-Dateien. Wenn Sie CSV-Dateien in anderen Kodierungsformaten verarbeiten möchten, ist eine zusätzliche Verarbeitung erforderlich.

Es gibt mehrere Methoden, um das Problem verstümmelter Zeichen zu lösen. Wir werden sie im Folgenden einzeln vorstellen:

Methode 1. Konvertieren Sie das Kodierungsformat manuell.

Bevor wir die CSV-Datei analysieren, können wir zunächst das Kodierungsformat manuell konvertieren CSV-Datei in UTF-8 konvertieren. Die einfache Methode besteht darin, die CSV-Datei mit Notepad zu öffnen und in das UTF-8-Format zu exportieren.

Die manuelle Konvertierung kann mühsam sein, insbesondere wenn wir eine große Anzahl von CSV-Dateien haben. Daher können wir die zweite Methode ausprobieren.

Methode 2. Verwenden Sie eine Bibliothek eines Drittanbieters

Die gängige CSV-Parsing-Bibliothek in Golang ist Encoding/CSV. Wenn wir CSV-Dateien in anderen Codierungsformaten verarbeiten müssen, müssen wir eine Bibliothek eines Drittanbieters verwenden, um das Parsen zu unterstützen. Sie können beispielsweise gocsv verwenden, um CSV-Dateien im GBK-Kodierungsformat zu analysieren.

Installationsmethode von gocsv:

$ go get github.com/kuangyh/csv

Als nächstes können Sie gocsv verwenden, um CSV-Dateien wie folgt zu analysieren:

package main

import (
    "encoding/csv"
    "fmt"
    "github.com/kuangyh/csv"
    "os"
)

func main() {
    file, err := os.Open("example.csv")
    if err != nil {
        fmt.Println("Error:", err)
        return
    }

    defer file.Close()

    reader := csv.NewReader(gocsv.NewReader(file))
    reader.Comma = ','

    lines, err := reader.ReadAll()
    if err != nil {
        fmt.Println("Error:", err)
        return
    }

    for i, line := range lines {
        fmt.Printf("Line %d: %v
", i+1, line)
    }
}
Nach dem Login kopieren

Im obigen Code importieren wir zuerst die gocsv-Bibliothek und Verwenden Sie dann Gocsv, um einen neuen Reader zu erstellen, ihn an die Bibliothek „encoding/csv“ zu übergeben und das Trennzeichen auf „“ zu setzen. Verwenden Sie abschließend die ReadAll-Methode, um alle Zeilen in der Datei abzurufen und die Ausgabe zu drucken.

Obwohl diese Methode effektiv ist, bringt sie auch einige Probleme mit sich. Beispielsweise müssen wir eine Bibliothek eines Drittanbieters verwenden, um die Konvertierung abzuschließen, was die Abhängigkeiten und die Komplexität erhöht. Wenn wir keine Bibliotheken von Drittanbietern verwenden möchten, gibt es eine dritte Methode.

Methode 3. Manuelles Parsen

Der Prozess des manuellen Parsens ist zwar umständlicher, aber auch eine effektive Lösung. Der Schlüssel liegt darin, das Format der CSV-Datei zu verstehen.

Normalerweise fügen wir der ersten Zeile der CSV-Datei einen Dateikopf hinzu, der den Namen jedes Felds enthält. Dieser Dateiheader ist auch Teil der CSV-Datei und kann durch Parsen der ersten Zeile abgerufen werden. In der Datenzeile bestehen die Daten jeder Zeile aus mehreren Feldern, und diese Felder werden durch "," getrennt. Wenn kein Problem mit verstümmeltem Code vorliegt, können wir die Bibliothek „encoding/csv“ verwenden, um die CSV-Datei direkt zu analysieren. Wenn jedoch verstümmelte Zeichen auftreten, müssen Sie jedes Feld manuell analysieren und in das UTF-8-Format konvertieren.

Das Folgende ist ein manueller Parsing-Code:

package main

import (
    "bufio"
    "encoding/csv"
    "fmt"
    "io"
    "os"
)

func main() {
    file, err := os.Open("example.csv")
    if err != nil {
        fmt.Println("Error:", err)
    }
    defer file.Close()

    reader := bufio.NewReader(file)
    var lines [][]string

    for {
        line, err := reader.ReadString('
')
        if err != nil && err != io.EOF {
            fmt.Println("Error:", err)
            return
        }

        if line == "" {
            break
        }

        // 去除换行符
        line = line[:len(line)-2]

        r := csv.NewReader([]byte(line))
        r.Comma = ','

        fields, err := r.Read()
        if err != nil {
            fmt.Println("Error:", err)
            return
        }

        // 将字段转换为UTF-8
        for i, s := range fields {
            fields[i] = transform(s)
        }

        lines = append(lines, fields)
    }

    for i, line := range lines {
        fmt.Printf("Line %d: %v
", i+1, line)
    }
}

// 将单个字段转换为UTF-8
func transform(s string) string {
    data, err := ioutil.ReadAll(transform.NewReader(strings.NewReader(s), simplifiedchinese.GBK.NewDecoder()))
    if err != nil {
        return s
    }
    return string(data)
}
Nach dem Login kopieren

Im obigen Code lesen wir zuerst jede Zeile der CSV-Datei über bufio und verwenden dann die Codierungs-/CSV-Bibliothek, um die Daten jeder Zeile zu analysieren. Um das verstümmelte Problem zu lösen, verwenden wir die Funktion transform(), um jedes Feld in das UTF-8-Format zu konvertieren.

Diese Funktion empfängt einen Zeichenfolgenparameter, konvertiert ihn zunächst in Reader, erstellt dann mit vereinfachtemchinese.GBK.NewDecoder() einen Decoder und verwendet schließlich die Funktion ioutil.ReadAll(), um die codierte Zeichenfolge in UTF-8 zu konvertieren.

Auf diese Weise können wir die CSV-Datei manuell analysieren und in das UTF-8-codierte Format konvertieren.

Zusammenfassung:

Die oben genannten sind drei Methoden, um das verstümmelte Problem der Golang-CSV-Analyse zu lösen. Wenn die von Ihnen verwendete CSV-Datei UTF-8-codiert ist, kann sie problemlos mit der Golang-eigenen Codierung/CSV analysiert werden. Andernfalls können Sie entsprechend den tatsächlichen Anforderungen eine manuelle Analyse durchführen oder eine Bibliothek eines Drittanbieters verwenden. Solange Sie die richtige Methode beherrschen, ist das Problem verstümmelter Zeichen auf jeden Fall kein Problem mehr.

Das obige ist der detaillierte Inhalt vonGolang CSV analysiert verstümmelte Zeichen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

GO Language Pack Import: Was ist der Unterschied zwischen Unterstrich und ohne Unterstrich? GO Language Pack Import: Was ist der Unterschied zwischen Unterstrich und ohne Unterstrich? Mar 03, 2025 pm 05:17 PM

Dieser Artikel erläutert die Paketimportmechanismen von Go: benannte Importe (z. B. importieren & quot; fmt & quot;) und leere Importe (z. B. Import _ & quot; fmt & quot;). Benannte Importe machen Paketinhalte zugänglich, während leere Importe nur T ausführen

Wie kann ich kurzfristige Informationsübertragung zwischen Seiten im BeEGO-Framework implementieren? Wie kann ich kurzfristige Informationsübertragung zwischen Seiten im BeEGO-Framework implementieren? Mar 03, 2025 pm 05:22 PM

In diesem Artikel werden die Newflash () -Funktion von BeEGO für die Übertragung zwischen PAGE in Webanwendungen erläutert. Es konzentriert sich auf die Verwendung von Newflash (), um temporäre Nachrichten (Erfolg, Fehler, Warnung) zwischen den Controllern anzuzeigen und den Sitzungsmechanismus zu nutzen. Limita

Wie konvertieren Sie die Liste der MySQL -Abfrageergebnisse in eine benutzerdefinierte Struktur -Slice in Go -Sprache? Wie konvertieren Sie die Liste der MySQL -Abfrageergebnisse in eine benutzerdefinierte Struktur -Slice in Go -Sprache? Mar 03, 2025 pm 05:18 PM

Dieser Artikel beschreibt die effiziente Konvertierung von MySQL -Abfrageergebnissen in GO -Strukturscheiben. Es wird unter Verwendung der SCAN -Methode von Datenbank/SQL zur optimalen Leistung hervorgehoben, wobei die manuelle Parsen vermieden wird. Best Practices für die Struktur -Feldzuordnung mithilfe von DB -Tags und Robus

Wie schreibe ich Scheinobjekte und Stubs zum Testen in Go? Wie schreibe ich Scheinobjekte und Stubs zum Testen in Go? Mar 10, 2025 pm 05:38 PM

Dieser Artikel zeigt, dass Mocks und Stubs in GO für Unit -Tests erstellen. Es betont die Verwendung von Schnittstellen, liefert Beispiele für Mock -Implementierungen und diskutiert Best Practices wie die Fokussierung von Mocks und die Verwendung von Assertion -Bibliotheken. Die Articl

Wie kann ich benutzerdefinierte Typ -Einschränkungen für Generika in Go definieren? Wie kann ich benutzerdefinierte Typ -Einschränkungen für Generika in Go definieren? Mar 10, 2025 pm 03:20 PM

In diesem Artikel werden die benutzerdefinierten Typ -Einschränkungen von GO für Generika untersucht. Es wird beschrieben, wie Schnittstellen die minimalen Typanforderungen für generische Funktionen definieren und die Sicherheitstypsicherheit und die Wiederverwendbarkeit von Code verbessern. Der Artikel erörtert auch Einschränkungen und Best Practices

Wie schreibe ich Dateien in Go Language bequem? Wie schreibe ich Dateien in Go Language bequem? Mar 03, 2025 pm 05:15 PM

Dieser Artikel beschreibt effizientes Dateischreiben in Go und vergleicht OS.WriteFile (geeignet für kleine Dateien) mit OS.openfile und gepufferter Schreibvorgänge (optimal für große Dateien). Es betont eine robuste Fehlerbehandlung, die Verwendung von Aufschub und Überprüfung auf bestimmte Fehler.

Wie schreibt man Unit -Tests in Go? Wie schreibt man Unit -Tests in Go? Mar 21, 2025 pm 06:34 PM

In dem Artikel werden Schreiben von Unit -Tests in GO erörtert, die Best Practices, Spottechniken und Tools für ein effizientes Testmanagement abdecken.

Wie kann ich Tracing -Tools verwenden, um den Ausführungsfluss meiner GO -Anwendungen zu verstehen? Wie kann ich Tracing -Tools verwenden, um den Ausführungsfluss meiner GO -Anwendungen zu verstehen? Mar 10, 2025 pm 05:36 PM

In diesem Artikel wird die Verwendung von Tracing -Tools zur Analyse von GO -Anwendungsausführungsfluss untersucht. Es werden manuelle und automatische Instrumentierungstechniken, den Vergleich von Tools wie Jaeger, Zipkin und Opentelemetrie erörtert und die effektive Datenvisualisierung hervorheben

See all articles