Remplacement des valeurs NaN dans les colonnes Dataframe
Lorsque vous travaillez avec des DataFrames dans Pandas, les données manquantes ou invalides peuvent être représentées par des valeurs NaN. Pour garantir la qualité des données et éviter les erreurs, il est souvent nécessaire de remplacer ces valeurs NaN par des espaces réservés ou des imputations appropriés.
Méthode DataFrame.fillna()
La plus simple La méthode pour remplacer les valeurs NaN utilise la méthode fillna(). Il prend une valeur ou un dictionnaire comme argument et remplace toutes les valeurs NaN dans les colonnes spécifiées ou l'intégralité du DataFrame par la valeur fournie.
Exemple :
import pandas as pd df = pd.DataFrame({ "itm": [420, 421, 421, 421, 421, 485, 485, 485, 485, 489, 489], "Date": ["2012-09-30", "2012-09-09", "2012-09-16", "2012-09-23", "2012-09-30", "2012-09-09", "2012-09-16", "2012-09-23", "2012-09-30", "2012-09-09", "2012-09-16"], "Amount": [65211, 29424, 29877, 30990, 61303, 71781, float("NaN"), 11072, 113702, 64731, float("NaN")] }) df.fillna(0)
Sortie :
itm Date Amount 0 420 2012-09-30 65211 1 421 2012-09-09 29424 2 421 2012-09-16 29877 3 421 2012-09-23 30990 4 421 2012-09-30 61303 5 485 2012-09-09 71781 6 485 2012-09-16 0.0 7 485 2012-09-23 11072.0 8 485 2012-09-30 113702.0 9 489 2012-09-09 64731 10 489 2012-09-16 0.0
Supplémentaire Méthodes :
Bien que fillna() soit la plus courante, il existe plusieurs autres méthodes qui peuvent être utilisées pour remplacer les valeurs NaN :
Conclusion :
Le remplacement des valeurs NaN dans les DataFrames est essentiel pour le nettoyage et la manipulation des données. En utilisant les méthodes décrites ci-dessus, vous pouvez gérer efficacement les données manquantes ou invalides, garantissant ainsi l'intégrité et la qualité de votre analyse de données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!