Maison développement back-end Golang golang csv analysant les caractères tronqués

golang csv analysant les caractères tronqués

May 15, 2023 am 09:13 AM

Lorsque vous utilisez Golang pour analyser des fichiers csv, vous rencontrerez parfois le problème des caractères tronqués. Cette situation est très courante, mais elle est aussi très gênante. Alors, comment résoudre ce problème ?

Tout d'abord, il faut comprendre que csv est un format de fichier texte, utilisant "," pour séparer chaque champ. Lorsque les données texte du fichier CSV contiennent des caractères non-ASCII, des caractères tronqués apparaîtront. La cause de ce problème est en réalité liée à l'encodage. Elle est généralement causée par l'incohérence entre le format d'encodage du fichier csv et le format d'encodage utilisé lors de l'analyse.

Dans Golang, la bibliothèque csv couramment utilisée est l'encodage/csv intégré. Cette bibliothèque utilise le codage UTF-8 par défaut pour analyser les fichiers csv. Si vous souhaitez traiter des fichiers CSV dans d'autres formats d'encodage, un traitement supplémentaire est requis.

Il existe plusieurs façons de résoudre le problème des caractères tronqués. Nous les présenterons une par une ci-dessous :

Méthode 1. Convertir manuellement le format d'encodage

#. 🎜🎜#Avant d'effectuer l'analyse csv, nous pouvons d'abord convertir manuellement le format d'encodage du fichier csv en UTF-8. La méthode la plus simple consiste à utiliser le Bloc-notes pour ouvrir le fichier csv et le transférer au format UTF-8.

La conversion manuelle peut être gênante, surtout lorsque nous avons un grand nombre de fichiers csv. Nous pouvons donc essayer la deuxième méthode.

Méthode 2. Utiliser une bibliothèque tierce

La bibliothèque d'analyse csv courante dans Golang est encoding/csv Si nous devons traiter des fichiers csv dans d'autres formats d'encodage, nous Vous devez utiliser la bibliothèque tierce. Des bibliothèques tierces sont utilisées pour faciliter l'analyse. Par exemple, vous pouvez utiliser gocsv pour analyser les fichiers csv au format d'encodage gbk.

méthode d'installation gocsv :

$ allez chercher github.com/kuangyh/csv

Ensuite, vous pouvez utiliser gocsv pour analyser le csv comme ce fichier :

package main

import (
    "encoding/csv"
    "fmt"
    "github.com/kuangyh/csv"
    "os"
)

func main() {
    file, err := os.Open("example.csv")
    if err != nil {
        fmt.Println("Error:", err)
        return
    }

    defer file.Close()

    reader := csv.NewReader(gocsv.NewReader(file))
    reader.Comma = ','

    lines, err := reader.ReadAll()
    if err != nil {
        fmt.Println("Error:", err)
        return
    }

    for i, line := range lines {
        fmt.Printf("Line %d: %v
", i+1, line)
    }
}
Copier après la connexion

Dans le code ci-dessus, nous importons d'abord la bibliothèque gocsv, puis utilisons gocsv pour créer un nouveau lecteur, le passons dans la bibliothèque d'encodage/csv et définissons le délimiteur sur ",". Enfin, utilisez la méthode ReadAll pour obtenir toutes les lignes du fichier et imprimer le résultat.

Bien que cette méthode soit efficace, elle présente également quelques problèmes. Par exemple, nous devons utiliser une bibliothèque tierce pour terminer la conversion, ce qui augmentera les dépendances et la complexité. Si nous ne voulons pas utiliser de bibliothèques tierces, il existe une troisième méthode.

Troisième méthode, analyse manuelle

Le processus d'analyse manuelle est peut-être plus fastidieux, mais c'est aussi une solution efficace. La clé est de comprendre le format du fichier csv.

Habituellement, nous ajoutons un en-tête de fichier à la première ligne du fichier csv, qui contient le nom de chaque champ. Cet en-tête de fichier fait également partie du fichier csv et peut être obtenu en analysant la première ligne. Dans la ligne de données, les données de chaque ligne sont composées de plusieurs champs, et ces champs sont séparés par ",". S'il n'y a pas de problème de code tronqué, nous pouvons alors utiliser la bibliothèque encoding/csv pour analyser directement le fichier csv. Mais si des caractères tronqués apparaissent, vous devez analyser manuellement chaque champ et les convertir au format UTF-8.

Ce qui suit est un code d'analyse manuelle :

package main

import (
    "bufio"
    "encoding/csv"
    "fmt"
    "io"
    "os"
)

func main() {
    file, err := os.Open("example.csv")
    if err != nil {
        fmt.Println("Error:", err)
    }
    defer file.Close()

    reader := bufio.NewReader(file)
    var lines [][]string

    for {
        line, err := reader.ReadString('
')
        if err != nil && err != io.EOF {
            fmt.Println("Error:", err)
            return
        }

        if line == "" {
            break
        }

        // 去除换行符
        line = line[:len(line)-2]

        r := csv.NewReader([]byte(line))
        r.Comma = ','

        fields, err := r.Read()
        if err != nil {
            fmt.Println("Error:", err)
            return
        }

        // 将字段转换为UTF-8
        for i, s := range fields {
            fields[i] = transform(s)
        }

        lines = append(lines, fields)
    }

    for i, line := range lines {
        fmt.Printf("Line %d: %v
", i+1, line)
    }
}

// 将单个字段转换为UTF-8
func transform(s string) string {
    data, err := ioutil.ReadAll(transform.NewReader(strings.NewReader(s), simplifiedchinese.GBK.NewDecoder()))
    if err != nil {
        return s
    }
    return string(data)
}
Copier après la connexion

Dans le code ci-dessus, nous lisons d'abord chaque ligne du fichier csv via bufio, puis utilisons la bibliothèque encoding/csv pour analyser les données pour chaque ligne. Afin de résoudre le problème tronqué, nous utilisons la fonction transform() pour convertir chaque champ au format UTF-8.

Cette fonction reçoit un paramètre de chaîne, le convertit d'abord en Reader, puis utilise simplifiéchinese.GBK.NewDecoder() pour créer un décodeur, et enfin utilise la fonction ioutil.ReadAll() pour convertir les caractères encodés Convertissez la chaîne en UTF-8.

De cette façon, nous pouvons analyser manuellement le fichier csv et le convertir au format d'encodage UTF-8.

Résumé :

Les trois méthodes ci-dessus permettent de résoudre le problème tronqué de l'analyse des fichiers CSV Golang. Si le fichier csv que vous utilisez est codé en UTF-8, il peut être facilement analysé à l'aide du propre encodage/csv de Golang. Sinon, vous pouvez choisir d'analyser manuellement ou d'utiliser une bibliothèque tierce pour la conversion en fonction des besoins réels. Dans tous les cas, tant que vous maîtrisez la bonne méthode, le problème des caractères tronqués n'est plus un problème.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

GO Language Pack Import: Quelle est la différence entre le soulignement et sans soulignement? GO Language Pack Import: Quelle est la différence entre le soulignement et sans soulignement? Mar 03, 2025 pm 05:17 PM

Cet article explique les mécanismes d'importation des packages de Go: les importations nommées (par exemple, importation & quot; fmt & quot;) et les importations vierges (par exemple, importation _ & quot; fmt & quot;). Les importations nommées rendent le contenu du package accessible, tandis que les importations vierges ne font que l'exécuter t

Comment mettre en œuvre le transfert d'informations à court terme entre les pages du cadre Beego? Comment mettre en œuvre le transfert d'informations à court terme entre les pages du cadre Beego? Mar 03, 2025 pm 05:22 PM

Cet article explique la fonction Newflash () de Beego pour le transfert de données inter-pages dans les applications Web. Il se concentre sur l'utilisation de NewFlash () pour afficher les messages temporaires (succès, erreur, avertissement) entre les contrôleurs, en tirant parti du mécanisme de session. Limiter

Comment convertir la liste des résultats de la requête MySQL en une tranche de structure personnalisée dans le langage Go? Comment convertir la liste des résultats de la requête MySQL en une tranche de structure personnalisée dans le langage Go? Mar 03, 2025 pm 05:18 PM

Cet article détaille la conversion efficace de la requête MySQL Resulte en tranches de structure GO. Il met l'accent sur l'utilisation de la méthode de numérisation de la base de données / SQL pour des performances optimales, en évitant l'analyse manuelle. Meilleures pratiques pour la cartographie des champs struct à l'aide de balises DB et de robus

Comment écrire des objets et des talons simulés pour les tests en Go? Comment écrire des objets et des talons simulés pour les tests en Go? Mar 10, 2025 pm 05:38 PM

Cet article montre la création de simulations et de talons dans GO pour les tests unitaires. Il met l'accent sur l'utilisation des interfaces, fournit des exemples d'implémentations simulées et discute des meilleures pratiques telles que la tenue de simulations concentrées et l'utilisation de bibliothèques d'assertion. L'articl

Comment puis-je définir des contraintes de type personnalisé pour les génériques en Go? Comment puis-je définir des contraintes de type personnalisé pour les génériques en Go? Mar 10, 2025 pm 03:20 PM

Cet article explore les contraintes de type personnalisé de Go pour les génériques. Il détaille comment les interfaces définissent les exigences de type minimum pour les fonctions génériques, améliorant la sécurité du type et la réutilisabilité du code. L'article discute également des limitations et des meilleures pratiques

Comment écrire des fichiers dans GO Language de manière pratique? Comment écrire des fichiers dans GO Language de manière pratique? Mar 03, 2025 pm 05:15 PM

Cet article détaille la rédaction de fichiers efficace dans GO, en comparant OS.WriteFile (adapté aux petits fichiers) avec OS.OpenFile et Buffered Writes (optimal pour les fichiers volumineux). Il met l'accent sur la gestion robuste des erreurs, l'utilisation de différer et la vérification des erreurs spécifiques.

Comment rédigez-vous des tests unitaires en Go? Comment rédigez-vous des tests unitaires en Go? Mar 21, 2025 pm 06:34 PM

L'article traite des tests d'unité d'écriture dans GO, couvrant les meilleures pratiques, des techniques de moquerie et des outils pour une gestion efficace des tests.

Comment puis-je utiliser des outils de traçage pour comprendre le flux d'exécution de mes applications GO? Comment puis-je utiliser des outils de traçage pour comprendre le flux d'exécution de mes applications GO? Mar 10, 2025 pm 05:36 PM

Cet article explore l'utilisation d'outils de traçage pour analyser le flux d'exécution des applications GO. Il traite des techniques d'instrumentation manuelles et automatiques, de comparaison d'outils comme Jaeger, Zipkin et OpenTelelemetry, et mettant en évidence une visualisation efficace des données

See all articles