Maintenir d'autres colonnes pendant les opérations Groupby
Lors de l'exécution d'une opération groupby sur une trame de données pandas, il est souvent nécessaire de conserver les colonnes qui ne le sont pas impliqués dans le processus de regroupement ou d’agrégation. Par défaut, ces autres colonnes sont supprimées une fois l'opération terminée. Cela peut être problématique si les colonnes conservées contiennent des informations précieuses.
Considérez le bloc de données suivant :
item diff otherstuff 0 1 2 1 1 1 1 2 2 1 3 7 3 2 -1 0 4 2 1 3 5 2 4 9 6 2 -6 2 7 3 0 0 8 3 2 9
Si nous devions regrouper le bloc de données par la colonne "élément" et trouver le valeur minimale de la colonne "diff", le bloc de données résultant ressemblerait à ceci :
item diff 0 1 1 1 2 -6 2 3 0
Remarquez que la colonne "otherstuff" a été supprimée. Pour conserver cette colonne, on peut utiliser la méthode idxmin() pour obtenir les indices des éléments de diff minimum, puis sélectionner ceux-ci :
>>> df.loc[df.groupby("item")["diff"].idxmin()] item diff otherstuff 1 1 1 2 6 2 -6 2 7 3 0 0 [3 rows x 3 columns]
Une autre méthode consiste à trier la trame de données par le "diff ", puis prenez le premier élément de chaque groupe d'éléments :
>>> df.sort_values("diff").groupby("item", as_index=False).first() item diff otherstuff 0 1 1 2 1 2 -6 2 2 3 0 0 [3 rows x 3 columns]
Ces deux méthodes produiront le résultat souhaité, tout en conservant la colonne "autres éléments". Gardez à l'esprit que les indices résultants peuvent être différents même si le contenu de la ligne est le même.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!