Lecture de fichiers CSV gigantesques : optimisation de la mémoire et de la vitesse
Lorsque vous essayez de traiter des fichiers CSV volumineux comportant des millions de lignes et des centaines de colonnes, les méthodes traditionnelles les approches utilisant des itérateurs peuvent entraîner des problèmes liés à la mémoire. Cet article explore les techniques optimisées pour gérer les données CSV à grande échelle dans Python 2.7.
Optimisation de la mémoire :
Le nœud du problème de mémoire réside dans la construction de listes en mémoire pour stocker de grands ensembles de données. Pour atténuer ce problème, Python propose le mot-clé rendement, qui convertit les fonctions en fonctions génératrices. Ces fonctions suspendent l'exécution après chaque instruction de rendement, permettant un traitement incrémentiel des données au fur et à mesure qu'elles sont rencontrées.
En employant des fonctions de générateur, vous pouvez traiter les données ligne par ligne, éliminant ainsi le besoin de stocker des fichiers entiers en mémoire. Le code suivant illustre cette approche :
import csv def getstuff(filename, criterion): with open(filename, "rb") as csvfile: datareader = csv.reader(csvfile) yield next(datareader) # yield header row count = 0 for row in datareader: if row[3] == criterion: yield row count += 1 elif count: # stop processing when a consecutive series of non-matching rows is encountered return
Améliorations de la vitesse :
De plus, vous pouvez tirer parti des fonctions dropwhile et takewhile de Python pour améliorer encore la vitesse de traitement. Ces fonctions peuvent filtrer efficacement les données, vous permettant de localiser rapidement les lignes qui vous intéressent. Voici comment :
from itertools import dropwhile, takewhile def getstuff(filename, criterion): with open(filename, "rb") as csvfile: datareader = csv.reader(csvfile) yield next(datareader) # yield header row yield from takewhile( # yield matching rows lambda r: r[3] == criterion, dropwhile( # skip non-matching rows lambda r: r[3] != criterion, datareader)) return
Traitement en boucle simplifié :
En combinant les fonctions du générateur, vous pouvez grandement simplifier le processus de bouclage dans votre ensemble de données. Voici le code optimisé pour getstuff et getdata :
def getdata(filename, criteria): for criterion in criteria: for row in getstuff(filename, criterion): yield row
Maintenant, vous pouvez directement parcourir le générateur getdata, qui produit un flux de lignes ligne par ligne, libérant ainsi de précieuses ressources mémoire.
N'oubliez pas que l'objectif est de minimiser le stockage des données en mémoire tout en maximisant l'efficacité du traitement. En appliquant ces techniques d'optimisation, vous pouvez gérer efficacement des fichiers CSV gigantesques sans rencontrer d'obstacles de mémoire.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!