Obtenir les enregistrements les plus élevés au sein d'un groupe Pandas
Dans l'ensemble de données suivant :
df = pd.DataFrame({'id':[1,1,1,2,2,2,2,3,4], 'value':[1,2,3,1,2,3,4,1,1]})
nous souhaitons obtenir le deux premiers enregistrements pour chaque identifiant. Une approche simple consiste à attribuer des numéros de ligne au sein de chaque groupe à l'aide de la méthode groupby :
dfN = df.groupby('id').apply(lambda x:x['value'].reset_index()).reset_index()
Cependant, une solution plus efficace est fournie par la fonction head :
df.groupby('id').head(2)
Cette opération produit :
id value id 1 0 1 1 1 1 2 2 3 2 1 4 2 2 3 7 3 1 4 8 4 1
Pour supprimer le MultiIndex et aplatir les résultats, utilisez :
df.groupby('id').head(2).reset_index(drop=True)
Cela donne le résultat souhaité :
id value 0 1 1 1 1 2 2 2 1 3 2 2 4 3 1 5 4 1
Ainsi, la fonction head fournit une approche concise et optimisée pour récupérer les enregistrements les plus élevés au sein de chaque groupe Pandas.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!