J'ai plusieurs centaines de fichiers M CSV sous la main pour stocker certaines données, et j'ai souvent besoin d'utiliser pandas et matplotlib pour lire et tracer ces données. Avant de dessiner, il est généralement nécessaire d'effectuer un prétraitement, un découpage et d'autres opérations de nettoyage. Étant donné que les chiffres doivent être interagis et rapportés fréquemment, j'utilise %matplotlib notebook
dans le notebook Jupyter pour les exploiter et interagir à partir des données originales. les données doivent-elles être enregistrées au format CSV afin qu'elles puissent être lues directement à partir du CSV pour obtenir les données intermédiaires pour l'affichage suivant, ou doivent-elles être enregistrées à l'aide de Pickle, afin qu'il soit plus rapide de lire Pickle pour une utilisation ultérieure ?
CSV doit être sûr. Il semble que le passage de Pickle à une autre version de Python puisse entraîner un échec de lecture. Ce n'est pas un format universel. S'il s'agit de quelques centaines de mégaoctets, la vitesse de lecture du CSV n'est en réalité pas lente. En plus, il existe hdf5, ce sont des formats d'échange de données sérieux.
csv suffit. Si vous pensez que ce n'est pas assez rapide, vous pouvez essayer le fichier hdf5
.