Obtenir les n premiers enregistrements de chaque groupe dans DataFrame
Pour obtenir les n premiers enregistrements de chaque groupe dans un DataFrame, envisagez d'utiliser Pandas' méthodes efficaces. Supposons que nous ayons le DataFrame suivant avec les colonnes 'id' et 'value' :
df = pd.DataFrame({'id': [1, 1, 1, 2, 2, 2, 2, 3, 4], 'value': [1, 2, 3, 1, 2, 3, 4, 1, 1]})
En utilisant les fonctions groupby() et head(), nous pouvons récupérer les 2 premiers enregistrements pour chaque 'id' :
df_top2 = df.groupby('id').head(2)
Sortie :
id value id 1 0 1 1 1 1 2 2 3 2 1 4 2 2 3 7 3 1 4 8 4 1
Pour aplatir le MultiIndex et éliminer les index de lignes en double, appliquez reset_index() :
df_top2 = df.groupby('id').head(2).reset_index(drop=True)
Résultat :
id value 0 1 1 1 1 2 2 2 1 3 2 2 4 3 1 5 4 1
Alternativement, si les enregistrements doivent être triés avant de sélectionner le premier n pour chaque groupe, appliquez d'abord le tri :
df_sorted = df.sort_values('value', ascending=False) df_top2 = df_sorted.groupby('id').head(2)
Cela fournit une approche plus efficace et élégante pour obtenir les meilleurs enregistrements au sein de chaque groupe dans un DataFrame.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!