Normalisation des colonnes DataFrame pour plus de cohérence
Dans l'analyse des données, il est souvent nécessaire de normaliser les colonnes d'un dataframe pour garantir la cohérence des plages de données. Ceci est particulièrement important lorsque vous traitez des données provenant de sources diverses ou lorsque les valeurs sont à des échelles différentes.
Énoncé du problème
Considérez un cadre de données avec des colonnes qui ont différentes plages de valeurs :
df: A B C 1000 10 0.5 765 5 0.35 800 7 0.09
L'objectif est de normaliser les colonnes de ce dataframe pour que chaque valeur soit comprise entre 0 et 1.
Solution
Normalisation moyenne
À l'aide de Pandas, la normalisation moyenne peut être implémentée comme suit :
normalized_df = (df - df.mean()) / df.std()
Cette méthode soustrait la moyenne de chaque colonne des valeurs d'origine, puis les divise par le écart type.
Normalisation Min-Max
Pour la normalisation min-max :
normalized_df = (df - df.min()) / (df.max() - df.min())
Cette approche calcule les valeurs minimales et maximales de chaque colonne et les utilise pour mettre à l'échelle les valeurs d'origine dans la plage [0, 1].
Résultat
Les deux méthodes de normalisation produiront une trame de données avec des colonnes où chaque valeur est entre 0 et 1. Pour l'exemple de dataframe donné, le résultat attendu est :
A B C 1 1 1 0.765 0.5 0.7 0.8 0.7 0.18
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!