Lorsque vous travaillez avec Pandas DataFrames, il est essentiel de gérer efficacement les données manquantes. Une tâche courante consiste à supprimer les lignes dans lesquelles une colonne particulière contient des valeurs NaN.
Considérez le DataFrame suivant :
STK_ID EPS cash STK_ID RPT_Date 601166 20111231 601166 NaN NaN 600036 20111231 600036 NaN 12 600016 20111231 600016 4.3 NaN 601009 20111231 601009 NaN NaN 601939 20111231 601939 2.5 NaN 000001 20111231 000001 NaN NaN
L'objectif est de supprimer toutes les lignes où la colonne « EPS » contient des valeurs NaN, ce qui donne ce qui suit DataFrame :
STK_ID EPS cash STK_ID RPT_Date 600016 20111231 600016 4.3 NaN 601939 20111231 601939 2.5 NaN
Pour accomplir cette tâche, vous pouvez utiliser la méthode df.dropna(), qui supprime les lignes où n'importe quelle valeur dans la colonne spécifiée est NaN. Cependant, dans ce cas, vous souhaitez uniquement supprimer les lignes dont la colonne « EPS » contient NaN. Pour appliquer cela spécifiquement à la colonne 'EPS', utilisez le code suivant :
df = df[df['EPS'].notna()]
Ce code vérifie chaque ligne du DataFrame si la valeur de la colonne 'EPS' n'est pas NaN, et si elle l'est non, ça garde la rangée. Si c'est NaN, la ligne est supprimée. Le DataFrame résultant contiendra uniquement les lignes où la colonne « EPS » a des valeurs non NaN.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!