Comment concaténer des chaînes au sein de groupes dans un DataFrame Pandas à l'aide de « groupby » ?

Barbara Streisand
Libérer: 2024-10-24 18:35:04
original
513 Les gens l'ont consulté

How to Concatenate Strings within Groups in a Pandas DataFrame Using `groupby`?

Pandas groupby : obtention d'une concaténation de chaînes

Lorsque vous travaillez avec un DataFrame dont l'une des colonnes contient des chaînes, la fonction sum() par défaut ne donnent pas toujours le résultat souhaité. Dans de tels scénarios, où l'objectif est de concaténer des chaînes pour chaque groupe, voici une explication complète et une solution.

Considérez le DataFrame suivant :

   A         B       C
0  1  0.749065    This
1  2  0.301084      is
2  3  0.463468       a
3  4  0.643961  random
4  1  0.866521  string
5  2  0.120737       !
Copier après la connexion

Par défaut, appliquer sum() à la colonne « C » donne le résultat suivant :

A
1    Thisstring
2           is!
3             a
4        random
dtype: object
Copier après la connexion

Pour obtenir le résultat souhaité où les chaînes sont concaténées pour chaque groupe, il existe plusieurs approches :

En utilisant l'application () Fonction :

Une méthode consiste à appliquer une fonction personnalisée à l'objet groupby. Cette fonction peut concaténer les chaînes au sein de chaque groupe.

<code class="python">def f(x):
    return Series(dict(A = x['A'].sum(),
                        B = x['B'].sum(),
                        C = "{%s}" % ', '.join(x['C'])))

df.groupby('A').apply(f)</code>
Copier après la connexion

Alternative :

Vous pouvez obtenir le même résultat en utilisant explicitement les fonctions apply() et lambda :

<code class="python">df.groupby('A')['C'].apply(lambda x: "{%s}" % ', '.join(x))</code>
Copier après la connexion

Application d'une logique personnalisée :

Si une personnalisation est requise, comme la suppression de chaînes vides ou l'application de délimiteurs spécifiques, vous pouvez implémenter votre propre logique dans la fonction lambda.

Par exemple, pour supprimer les chaînes vides :

<code class="python">df.groupby('A')['C'].apply(lambda x: "{%s}" % ', '.join([c for c in x if c]))</code>
Copier après la connexion

Considérations relatives aux performances :

Notez que l'application de fonctions personnalisées peut être plus lente que l'utilisation du fonction sum() intégrée. Par conséquent, il est recommandé de considérer l’impact sur les performances en fonction de vos besoins spécifiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!