Avec Pandas, vous pouvez effectuer diverses opérations d'agrégation pour réduire la dimensionnalité et résumer les données.
Pandas fournit de nombreuses fonctions d'agrégation, notamment Mean(), sum(), count(), min() et max(). Vous pouvez utiliser ces fonctions pour calculer des statistiques récapitulatives pour chaque groupe. Par exemple :
# Calculate mean of each group based on 'A' and 'B' columns df1 = df.groupby(['A', 'B']).mean() # Print the results print(df1)
Lorsque vous appliquez l'agrégation à plusieurs colonnes, l'objet résultant peut être une série ou un DataFrame en fonction du nombre de colonnes regroupées.
Pour obtenir un DataFrame avec toutes les colonnes, utilisez as_index=False dans la fonction groupby.
Pour agréger des colonnes de chaînes, vous pouvez utiliser des opérations de liste, de tuple ou de jointure.
Pour exemple :
# Convert 'B' column values to a list for each group df1 = df.groupby('A')['B'].agg(list).reset_index() # Combine 'B' column values into a string with separator for each group df2 = df.groupby('A')['B'].agg(','.join).reset_index()
Pour compter les valeurs non manquantes dans chaque groupe, utilisez GroupBy.count(). Pour compter toutes les valeurs, y compris celles manquantes, utilisez GroupBy.size().
Par exemple :
# Count non-missing values in 'C' column for each group df1 = df.groupby('A')['C'].count().reset_index(name='COUNT') # Count all values in 'A' column for each group df2 = df.groupby('A').size().reset_index(name='COUNT')
Vous pouvez ajouter une nouvelle colonne contenant les valeurs agrégées en utilisant la méthode transform(). La fonction transform() applique l'opération spécifiée à chaque groupe et renvoie un nouvel objet de la même taille que l'original.
Par exemple :
# Create a new 'C1' column with the sum of 'C' grouped by 'A' df['C1'] = df.groupby('A')['C'].transform('sum')
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!