Maison > développement back-end > Tutoriel Python > Comment trouver la valeur la plus courante dans une colonne Pandas DataFrame après le regroupement ?

Comment trouver la valeur la plus courante dans une colonne Pandas DataFrame après le regroupement ?

Patricia Arquette
Libérer: 2024-11-30 12:13:12
original
567 Les gens l'ont consulté

How to Find the Most Common Value in a Pandas DataFrame Column After Grouping?

GroupBy pandas DataFrame et Select Most Common Value

Vous êtes chargé de nettoyer un bloc de données avec trois colonnes de chaînes, en vous assurant que la troisième colonne contient la valeur correcte pour la combinaison spécifiée des deux premières colonnes. L'extrait de code que vous avez fourni tente de regrouper le bloc de données selon les deux premières colonnes et de sélectionner la valeur la plus courante de la troisième colonne pour chaque combinaison. Cependant, vous rencontrez un problème lorsque vous essayez d'exécuter la fonction agg.

Using Pandas >= 0.16

La syntaxe que vous avez utilisée dans votre code est obsolète. . Utilisez plutôt la fonction pd.Series.mode, disponible dans les versions Pandas 0.16 et supérieures. Cette fonction renvoie la valeur la plus courante dans une série de chaînes. Voici comment l'appliquer :

source.groupby(['Country','City'])['Short name'].agg(pd.Series.mode)
Copier après la connexion

Cette syntaxe regroupe le bloc de données par « Pays » et « Ville », applique la fonction pd.Series.mode à la colonne « Nom court » de chaque groupe et affiche le résultats.

Si vous avez besoin de la sortie sous forme de DataFrame, utilisez ceci line:

source.groupby(['Country','City'])['Short name'].agg(pd.Series.mode).to_frame()
Copier après la connexion

Gestion de plusieurs modes

La fonction pd.Series.mode gère également efficacement les situations où plusieurs modes existent. Par exemple, si plusieurs valeurs apparaissent avec la même fréquence que la valeur la plus courante, elles seront renvoyées sous forme de liste de modes.

Alternatives (non recommandées)

Vous pouvez utiliser la fonction stats.mode de la bibliothèque standard Python. Cependant, cette approche ne fonctionne pas bien lorsqu’il s’agit de plusieurs modes. Il génère une StatisticsError lorsqu'il n'y a pas une seule valeur la plus courante.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal