Colonnes normalisées : conserver les valeurs dans une plage
Lorsqu'il s'agit d'analyse de données, les valeurs résident souvent dans une plage, ce qui rend l'interprétation un peu difficile. La normalisation vient à la rescousse en transformant les valeurs en une échelle cohérente entre 0 et 1.
Considérons un exemple de dataframe :
df: A B C 1000 10 0.5 765 5 0.35 800 7 0.09
Solution 1 : Normalisation moyenne
Grâce à Pandas, nous pouvons normaliser les colonnes en calculant l'écart par rapport à la moyenne et en le standardisant avec l'écart type :
normalized_df = (df - df.mean()) / df.std()
Cela nous donne :
normalized_df: A B C 1.000000 1.000000 1.000000 0.765592 0.500000 0.700000 0.800457 0.700000 0.180000
Solution 2 : Normalisation Min-Max
Alternativement, nous pouvons effectuer une normalisation min-max, qui met à l'échelle les valeurs en fonction du minimum et du maximum des données :
normalized_df = (df - df.min()) / (df.max() - df.min())
Résultat dans :
normalized_df: A B C 1.000000 1.000000 1.000000 0.765592 0.500000 0.700000 0.800457 0.700000 0.180000
Notez que Pandas applique automatiquement la normalisation par colonne, ce qui rend le processus efficace et simple.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!