Comment obtenir efficacement les N meilleurs enregistrements au sein de chaque groupe Pandas ?-Tutoriel Python-php.cn

Comment obtenir efficacement les N meilleurs enregistrements au sein de chaque groupe Pandas ?

Patricia Arquette

Libérer： 2024-12-02 19:27:14

original

1063 Les gens l'ont consulté

How to Efficiently Get the Top N Records within Each Pandas Group?

Obtenir les enregistrements les plus élevés au sein d'un groupe Pandas

Dans l'ensemble de données suivant :

df = pd.DataFrame({'id':[1,1,1,2,2,2,2,3,4], 'value':[1,2,3,1,2,3,4,1,1]})

Copier après la connexion

nous souhaitons obtenir le deux premiers enregistrements pour chaque identifiant. Une approche simple consiste à attribuer des numéros de ligne au sein de chaque groupe à l'aide de la méthode groupby :

dfN = df.groupby('id').apply(lambda x:x['value'].reset_index()).reset_index()

Copier après la connexion

Cependant, une solution plus efficace est fournie par la fonction head :

df.groupby('id').head(2)

Copier après la connexion

Cette opération produit :

       id  value
id             
1  0   1      1
   1   1      2 
2  3   2      1
   4   2      2
3  7   3      1
4  8   4      1

Copier après la connexion

Pour supprimer le MultiIndex et aplatir les résultats, utilisez :

df.groupby('id').head(2).reset_index(drop=True)

Copier après la connexion

Cela donne le résultat souhaité :

    id  value
0   1      1
1   1      2
2   2      1
3   2      2
4   3      1
5   4      1

Copier après la connexion

Ainsi, la fonction head fournit une approche concise et optimisée pour récupérer les enregistrements les plus élevés au sein de chaque groupe Pandas.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!