Lors du chargement d'un fichier CSV avec Pandas à l'aide de pd.read_csv('somefile.csv'), vous pouvez rencontrer un avertissement :
DtypeWarning: Columns (4,5,7,16) have mixed types. Specify dtype option on import or set low_memory=False.
L'option low_memory est obsolète et n'a aucun impact fonctionnel. Son objectif était de réduire l'utilisation de la mémoire lors de l'analyse des fichiers en empêchant l'inférence de type. Cependant, il ne fait plus rien de différent.
L'avertissement apparaît car deviner les types de chaque colonne nécessite beaucoup de ressources. Pandas détermine les types en analysant l'intégralité du fichier. Sans définir explicitement les types, il ne peut pas commencer l'analyse tant que le fichier complet n'est pas lu.
Spécifier les types (par exemple, dtype={'user_id': int}) informe Pandas sur les types de données attendus, lui permettant de commencer l'analyse immédiatement.
pd.read_csv('somefile.csv', dtype={'user_id': int})
La définition de types de données peut éviter les erreurs lors de la rencontre de types de données non valides (par exemple, "foobar" dans une colonne entière).
Pandas prend en charge divers types, notamment :
Spécifique aux pandas :
ToUse pour gérer des données potentiellement invalides (par exemple, "foobar" dans une colonne entière). Cependant, les convertisseurs sont lents et inefficaces, alors utilisez-les avec prudence.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!