Exclusion de valeurs aberrantes dans les DataFrames Pandas : détection et suppression des anomalies de données
Dans l'analyse des données, les valeurs aberrantes peuvent fausser les résultats et fausser les interprétations. Pour atténuer ce problème, il est crucial de détecter et d’exclure les valeurs aberrantes des ensembles de données. Cet article présente une méthode élégante d'exclusion des valeurs aberrantes dans les DataFrames pandas à l'aide de la fonction scipy.stats.zscore.
Supposons que vous ayez un DataFrame avec plusieurs colonnes, dont l'une (nommée "Vol") contient des valeurs avec un valeur aberrante (par exemple, 4 000 alors que la plupart des valeurs se situent autour de 1 200). Pour supprimer les lignes comportant de telles valeurs aberrantes dans une colonne spécifique, procédez comme suit :
Utilisation de scipy.stats.zscore pour la détection des valeurs aberrantes
Importez le bibliothèques nécessaires :
import pandas as pd import numpy as np from scipy import stats
Calculez le score Z pour le colonne sensible aux valeurs aberrantes :
df["Vol_zscore"] = stats.zscore(df["Vol"])
Créez une condition pour identifier les lignes comprises dans trois écarts types par rapport à la moyenne :
mask = np.abs(df["Vol_zscore"]) < 3
Utilisez la condition pour filtrer le DataFrame et supprimer les valeurs aberrantes lignes :
filtered_df = df[mask]
En appliquant ces étapes, vous pouvez détecter et exclure efficacement les lignes contenant des valeurs aberrantes dans une colonne spécifique de votre Pandas DataFrame. Cette méthode vous permet de supprimer les anomalies qui pourraient potentiellement biaiser votre analyse de données et de garantir des résultats plus précis et fiables.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!