Comprendre la distinction entre la taille et le nombre chez les pandas
Pandas, une puissante bibliothèque Python pour la manipulation et l'analyse des données, propose des opérations flexibles telles que regrouper les données par catégories. Lorsque vous travaillez avec des données groupées, il est crucial de comprendre la différence entre les méthodes count et size.
Question : Qu'est-ce qui sépare groupby("x").count et groupby("x").size dans Pandas ? La taille exclut-elle simplement les valeurs nulles ?
Réponse :
La distinction entre le nombre et la taille réside dans leur gestion des valeurs NaN :
Exemple :
Considérez le DataFrame Pandas suivant :
df = pd.DataFrame({'a':[0,0,1,2,2,2], 'b':[1,2,3,4,np.NaN,4], 'c':np.random.randn(6)})
Évaluer le méthodes count et size sur la colonne 'b' regroupées par 'a' :
print(df.groupby(['a'])['b'].count()) print(df.groupby(['a'])['b'].size())
Sortie :
a 0 2 1 1 2 2 Name: b, dtype: int64 a 0 2 1 1 2 3 dtype: int64
Comme évident, la méthode count exclut les Valeur NaN dans le groupe 4 (où « a » vaut 2), alors que la méthode de taille l'inclut.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!