Maison > développement back-end > Tutoriel Python > Comment puis-je conserver d'autres colonnes dans un Pandas DataFrame lors d'une opération groupby ?

Comment puis-je conserver d'autres colonnes dans un Pandas DataFrame lors d'une opération groupby ?

Barbara Streisand
Libérer: 2024-10-27 09:09:03
original
747 Les gens l'ont consulté

How can I maintain other columns in a Pandas DataFrame during a groupby operation?

Maintenir d'autres colonnes pendant les opérations Groupby

Lors de l'exécution d'une opération groupby sur une trame de données pandas, il est souvent nécessaire de conserver les colonnes qui ne le sont pas impliqués dans le processus de regroupement ou d’agrégation. Par défaut, ces autres colonnes sont supprimées une fois l'opération terminée. Cela peut être problématique si les colonnes conservées contiennent des informations précieuses.

Considérez le bloc de données suivant :

    item    diff   otherstuff
   0   1       2            1
   1   1       1            2
   2   1       3            7
   3   2      -1            0
   4   2       1            3
   5   2       4            9
   6   2      -6            2
   7   3       0            0
   8   3       2            9
Copier après la connexion

Si nous devions regrouper le bloc de données par la colonne "élément" et trouver le valeur minimale de la colonne "diff", le bloc de données résultant ressemblerait à ceci :

    item   diff
   0   1      1           
   1   2     -6           
   2   3      0                 
Copier après la connexion

Remarquez que la colonne "otherstuff" a été supprimée. Pour conserver cette colonne, on peut utiliser la méthode idxmin() pour obtenir les indices des éléments de diff minimum, puis sélectionner ceux-ci :

>>> df.loc[df.groupby("item")["diff"].idxmin()]
   item  diff  otherstuff
1     1     1           2
6     2    -6           2
7     3     0           0

[3 rows x 3 columns]
Copier après la connexion

Une autre méthode consiste à trier la trame de données par le "diff ", puis prenez le premier élément de chaque groupe d'éléments :

>>> df.sort_values("diff").groupby("item", as_index=False).first()
   item  diff  otherstuff
0     1     1           2
1     2    -6           2
2     3     0           0

[3 rows x 3 columns]
Copier après la connexion

Ces deux méthodes produiront le résultat souhaité, tout en conservant la colonne "autres éléments". Gardez à l'esprit que les indices résultants peuvent être différents même si le contenu de la ligne est le même.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal