Dans Pandas, l'utilisation de la fonction groupby peut être utile lorsque vous travaillez avec des données contenant des valeurs en double. Cependant, si vous souhaitez obtenir une valeur résumée tout en conservant les valeurs distinctes dans un groupe, la mise en œuvre d'une opération de jointure personnalisée peut être nécessaire.
Considérez l'exemple suivant :
col val A Cat A Tiger B Ball B Bat
Lorsque vous utilisez la fonction groupby pour additionner la colonne 'val' pour chaque valeur unique dans 'col', le résultat suivant est généré :
A CatTiger B BallBat
Pour introduire un délimiteur (par exemple, '-') dans les valeurs jointes, le code suivant peut être utilisé :
df.groupby(['col'])['val'].sum().apply(lambda x: '-'.join(x))
Cependant, cette approche conduit à un résultat inattendu :
A C-a-t-T-i-g-e-r B B-a-l-l-B-a-t
Le problème se pose en raison de la fonction lambda recevant un objet Series contenant les valeurs individuelles de la colonne 'val' au lieu de la chaîne concaténée.
L'approche alternative suivante peut être utilisé pour obtenir la sortie souhaitée jointe par un délimiteur :
df.groupby('col')['val'].agg('-'.join)
Cela fournit la sortie :
col A Cat-Tiger B Ball-Bat Name: val, dtype: object
Pour convertir l'index ou le MultiIndex en colonnes, vous pouvez utiliser la fonction reset_index :
df1 = df.groupby('col')['val'].agg('-'.join).reset_index(name='new')
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!