Nombres de regroupements de données Pandas et récupération du nombre maximum
Problème :
Étant donné un DataFrame Pandas avec plusieurs colonnes, comment pouvez-vous regrouper efficacement les lignes par deux colonnes spécifiques et obtenir des décomptes dans chaque groupe ? De plus, comment déterminer le nombre maximum pour chaque valeur dans l'une des colonnes de regroupement ?
Solution :
Pour regrouper les lignes DataFrame par deux colonnes et compter les occurrences , utilisez la fonction groupby() suivie de la méthode size() :
<code class="python">df.groupby(['col5', 'col2']).size()</code>
Cette opération crée des groupes basés sur les colonnes spécifiées et renvoie le nombre de lignes dans chaque groupe. Le résultat ressemblera à ce qui suit :
col5 col2 count 1 A 1 D 3 2 B 2 ...
Pour trouver le nombre maximum pour chaque valeur dans la colonne col2 :
<code class="python">df.groupby(['col5', 'col2']).size().groupby(level=1).max()</code>
Cette opération regroupe les données de comptage par niveau de colonne col2 et renvoie le nombre maximum pour chaque valeur col2, produisant une sortie comme :
col2 A 3 B 2 C 1 D 3
Notes supplémentaires :
Pour regrouper sur plusieurs colonnes et obtenir des décomptes et des statistiques récapitulatives supplémentaires , vous pouvez utiliser groupby() en conjonction avec d'autres méthodes comme agg(), qui vous permet de spécifier plusieurs fonctions d'agrégation :
<code class="python">df.groupby(['col5', 'col2']).agg(['count', 'mean', 'max'])</code>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!