Traitement CSV volumineux à l'aide de Go-Golang-php.cn

Maison

développement back-end

Golang

Traitement CSV volumineux à l'aide de Go

Linda Hamilton

Nov 27, 2024 am 12:54 AM

L'idée est :

Étant donné qu'un grand CSV factice (1 million de lignes) contient un échantillon de données client et effectue le traitement avec les objectifs ci-dessous :

Extraire les données du CSV

Calculer combien de données/lignes

Regrouper combien de clients pour chaque ville

Trier les villes par nombre de clients du plus élevé au plus bas

Calculer le temps de traitement

Un exemple CSV des clients peut être téléchargé ici https://github.com/datablist/sample-csv-files

Charger et extraire des données

Apparemment, Go a une bibliothèque standard pour le traitement CSV. Nous n'avons plus besoin de dépendance tierce pour résoudre notre problème, ce qui est bien. La solution est donc assez simple :

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

Copier après la connexion

Ouvrez le fichier à partir du chemin indiqué
Charger le fichier ouvert sur le lecteur CSV
Contient tous les enregistrements/lignes CSV extraits dans une tranche d'enregistrements pour un traitement ultérieur

FieldsPerRecord est défini sur -1 car je souhaite ignorer la vérification des champs sur la ligne, car le nombre de champs ou de colonnes peut être différent dans chaque format

Dans cet état, nous sommes déjà en mesure de charger et d'extraire toutes les données du CSV et sommes prêts pour le prochain état de traitement. Nous pourrons également savoir combien de lignes dans CSV en utilisant la fonction len(records).

Regroupement du nombre total de clients dans chaque ville

Nous pouvons désormais parcourir les enregistrements et créer la carte contenant le nom de la ville et le nombre total de clients qui ressemble à ceci :

["Jakarta": 10, "Bandung": 200, ...]

Copier après la connexion

Les données de la ville dans la ligne CSV sont situées dans le 7ème index et le code ressemblera à ceci

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

Copier après la connexion

Si le plan de la ville n'existe pas, créez une nouvelle carte et définissez le total du client sur 1. Sinon, incrémentez simplement le nombre total de villes données.

Maintenant, nous avons la carte m contenant une collection de villes et le nombre de clients à l'intérieur. À ce stade, nous avons déjà résolu le problème du regroupement du nombre de clients pour chaque ville.

Trier le client total le plus élevé

J'ai essayé de trouver s'il existe une fonction dans la bibliothèque standard pour trier la carte mais malheureusement je ne l'ai pas trouvée. Tri possible uniquement pour la tranche car nous pouvons réorganiser l'ordre des données en fonction de la position de l'index. Alors oui, faisons une tranche de notre carte actuelle.

// convert to slice first for sorting purposes
dc := []CityDistribution{}
for k, v := range m {
  dc = append(dc, CityDistribution{City: k, CustomerCount: v})
}

Copier après la connexion

Maintenant, comment l'avons-nous trié par CustomerCount du plus élevé au plus bas ? L’algorithme le plus courant pour cela utilise le bubble short. Bien que ce ne soit pas le plus rapide, il pourrait faire l'affaire.

Bubble Sort est l'algorithme de tri le plus simple qui fonctionne en échangeant à plusieurs reprises les éléments adjacents s'ils sont dans le mauvais ordre. Cet algorithme ne convient pas aux grands ensembles de données car sa complexité temporelle moyenne et dans le pire des cas est assez élevée.

Référence : https://www.geeksforgeeks.org/bubble-sort-algorithm/

En utilisant notre tranche, il bouclera sur les données et vérifiera la valeur suivante de l'index et l'échangera si les données actuelles sont inférieures à l'index suivant. Vous pouvez vérifier l'algorithme de détail sur le site de référence.

Maintenant, notre processus de tri pourrait être comme ça

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

Copier après la connexion

À la fin de la boucle, la tranche finale nous donnera des données triées.

Calculer le temps de traitement

Calculer le temps de traitement est assez simple, nous obtenons l'horodatage avant et après l'exécution du processus principal du programme et calculons la différence. En Go, l'approche devrait être assez simple :

["Jakarta": 10, "Bandung": 200, ...]

Copier après la connexion

Le résultat

Exécutez le programme avec la commande

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

Copier après la connexion

Les informations imprimées indiqueraient le nombre de lignes, les données triées et le temps de traitement. Quelque chose comme ceci ci-dessous :

Large CSV Processing Using Go

Comme prévu par les performances de Go, il a traité 1 million de lignes CSV en moins d'une seconde !

Tous les codes complétés sont déjà publiés sur mon référentiel Github :

https://github.com/didikz/csv-processing/tree/main/golang

Leçon apprise

Le traitement CSV dans Go est déjà disponible dans la bibliothèque standard, pas besoin d'utiliser une bibliothèque tierce
Le traitement des données est assez simple. Le défi était de savoir comment trier les données car il fallait le faire manuellement

Qu'est-ce qui vous vient à l'esprit ?

Je pensais que ma solution actuelle pourrait être optimisée davantage car j'ai bouclé tous les enregistrements extraits au format CSV pour les mapper et si nous avons vérifié la source ReadAll(), elle a également une boucle pour créer la tranche basée sur le lecteur de fichier donné. De cette manière, des lignes de 1 Mil pourraient produire 2 x boucles pour des données de 1 Mil, ce qui n'est pas agréable.

Je pensais que si je pouvais lire les données directement à partir du lecteur de fichiers, cela n'aurait besoin que d'une seule boucle car je pourrais créer une carte directement à partir de celui-ci. Sauf que la tranche d'enregistrements sera utilisée ailleurs mais pas dans ce cas.

Je n'ai pas encore le temps de le comprendre, mais j'ai aussi pensé à certains inconvénients si je le fais manuellement :

Il faudra probablement gérer davantage d'erreurs du processus d'analyse
Je ne sais pas dans quelle mesure cela réduira le temps de traitement pour considérer que la solution de contournement en vaudra la peine ou non

Bon codage !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

4 Il y a quelques semaines By DDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

3 Il y a quelques semaines By DDD

Comment réparer KB5055518 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semaines By DDD

Niveaux de force pour chaque ennemi et monstre de R.E.P.O.

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Blue Prince: Comment se rendre au sous-sol

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7929

Tutoriel Java

1652

Tutoriel CakePHP

1411

Tutoriel Laravel

1303

Tutoriel PHP

1250

Afficher plus

Related knowledge

Objectif de Golang: Construire des systèmes efficaces et évolutifs Apr 09, 2025 pm 05:17 PM

GO Language fonctionne bien dans la construction de systèmes efficaces et évolutifs. Ses avantages incluent: 1. Haute performance: compilé en code machine, vitesse de course rapide; 2. Programmation simultanée: simplifier le multitâche via les goroutines et les canaux; 3. Simplicité: syntaxe concise, réduction des coûts d'apprentissage et de maintenance; 4. Plate-forme multipliée: prend en charge la compilation multiplateforme, déploiement facile.

Golang et C: concurrence vs vitesse brute Apr 21, 2025 am 12:16 AM

Golang est meilleur que C en concurrence, tandis que C est meilleur que Golang en vitesse brute. 1) Golang obtient une concurrence efficace par le goroutine et le canal, ce qui convient à la gestion d'un grand nombre de tâches simultanées. 2) C Grâce à l'optimisation du compilateur et à la bibliothèque standard, il offre des performances élevées près du matériel, adaptées aux applications qui nécessitent une optimisation extrême.

La course de performance: Golang vs C Apr 16, 2025 am 12:07 AM

Golang et C ont chacun leurs propres avantages dans les compétitions de performance: 1) Golang convient à une concurrence élevée et à un développement rapide, et 2) C fournit des performances plus élevées et un contrôle fin. La sélection doit être basée sur les exigences du projet et la pile de technologie d'équipe.

Golang vs Python: performance et évolutivité Apr 19, 2025 am 12:18 AM

Golang est meilleur que Python en termes de performances et d'évolutivité. 1) Les caractéristiques de type compilation de Golang et le modèle de concurrence efficace le font bien fonctionner dans des scénarios de concurrence élevés. 2) Python, en tant que langue interprétée, s'exécute lentement, mais peut optimiser les performances via des outils tels que Cython.

Golang vs Python: différences et similitudes clés Apr 17, 2025 am 12:15 AM

Golang et Python ont chacun leurs propres avantages: Golang convient aux performances élevées et à la programmation simultanée, tandis que Python convient à la science des données et au développement Web. Golang est connu pour son modèle de concurrence et ses performances efficaces, tandis que Python est connu pour sa syntaxe concise et son écosystème de bibliothèque riche.

C et Golang: Lorsque les performances sont cruciales Apr 13, 2025 am 12:11 AM

C est plus adapté aux scénarios où le contrôle direct des ressources matérielles et une optimisation élevée de performances sont nécessaires, tandis que Golang est plus adapté aux scénarios où un développement rapide et un traitement de concurrence élevé sont nécessaires. 1.C's Avantage est dans ses caractéristiques matérielles proches et à des capacités d'optimisation élevées, qui conviennent aux besoins de haute performance tels que le développement de jeux. 2. L'avantage de Golang réside dans sa syntaxe concise et son soutien à la concurrence naturelle, qui convient au développement élevé de services de concurrence.

Impact de Golang: vitesse, efficacité et simplicité Apr 14, 2025 am 12:11 AM

GOIMIMPACTSDEVENCEMENTSPOSITIVEMENTS INSPECT, EFFICACTION ET APPLICATION.1) VITESSE: GOCOMPILESQUICKLYANDRUNSEFFIÉMENT, IDEALFORLARGEPROROSTS.2) Efficacité: ITSCOMPEHENSIVESTANDARDLIBRARYREDUCEEXTERNEDENDENCES, EnhancingDevelovefficiency.3) Simplicité: Simplicité: Implicité de la manière

Golang et C: les compromis en performance Apr 17, 2025 am 12:18 AM

Les différences de performance entre Golang et C se reflètent principalement dans la gestion de la mémoire, l'optimisation de la compilation et l'efficacité du temps d'exécution. 1) Le mécanisme de collecte des ordures de Golang est pratique mais peut affecter les performances, 2) la gestion manuelle de C et l'optimisation du compilateur sont plus efficaces dans l'informatique récursive.

See all articles