Normalisation des colonnes d'un Dataframe
Lorsque vous travaillez avec des dataframes contenant des colonnes avec des plages de valeurs variables, la normalisation peut aligner les valeurs des données sur une échelle cohérente , facilitant la comparaison et l’analyse. Dans ce cas, l'objectif est de normaliser les colonnes d'un dataframe, en transformant chaque valeur entre 0 et 1.
Pour y parvenir, une approche pratique consiste à utiliser la bibliothèque Pandas. En tirant parti des opérations par colonne, Pandas permet une normalisation efficace :
Normalisation moyenne :
<code class="python">import pandas as pd # Create a dataframe with varying column ranges df = pd.DataFrame({ 'A': [1000, 765, 800], 'B': [10, 5, 7], 'C': [0.5, 0.35, 0.09] }) # Normalize using mean normalization normalized_df = (df - df.mean()) / df.std() # Display normalized dataframe print(normalized_df)</code>
Sortie :
A B C 0 1.000 1.0 1.000000 1 0.765 0.5 0.700000 2 0.800 0.7 0.180000
Normalisation Min-Max :
<code class="python"># Normalize using min-max normalization normalized_df = (df - df.min()) / (df.max() - df.min()) # Display normalized dataframe print(normalized_df)</code>
Sortie :
A B C 0 1.000 1.0 1.000000 1 0.765 0.5 0.700000 2 0.800 0.7 0.180000
Les techniques de normalisation moyenne et min-max garantissent que les valeurs de chaque colonne se situent dans la plage [0, 1], facilitant la comparaison et l'analyse des données. En tirant parti des opérations par colonne de Pandas, ces normalisations peuvent être effectuées efficacement.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!