Comment agréger et regrouper des données en Python
Dans le processus d'analyse et de traitement des données, il est souvent nécessaire d'agréger et de regrouper les données. Python fournit une variété de bibliothèques et d'outils puissants pour faciliter les opérations d'agrégation et de regroupement de données. Cet article expliquera comment utiliser la bibliothèque pandas pour l'agrégation et le regroupement de données en Python, et fournira des exemples de code spécifiques.
1. Agrégation de données
L'agrégation de données est l'opération consistant à fusionner plusieurs données en une ou un petit nombre de données. En Python, vous pouvez utiliser la fonction groupby() dans la bibliothèque pandas pour l'agrégation de données.
L'exemple de code est le suivant :
import pandas as pd # 创建一个示例数据集 data = pd.DataFrame({'A': ['apple', 'orange', 'banana', 'apple', 'banana'], 'B': ['red', 'orange', 'yellow', 'green', 'yellow'], 'C': [1, 2, 3, 4, 5]}) # 按照A列进行聚合,计算C列的总和 result = data.groupby('A')['C'].sum() print(result)
Exécutez le code ci-dessus et le résultat de sortie est le suivant :
A apple 5 banana 8 orange 2 Name: C, dtype: int64
Parmi eux, la fonction groupby() spécifie l'agrégation en fonction de la colonne 'A', et la fonction sum() La fonction calcule la somme de la colonne « C ».
2. Regroupement de données
Le regroupement de données est l'opération de regroupement de données selon une certaine norme. De même, en Python, vous pouvez utiliser la fonction groupby() dans la bibliothèque pandas pour le regroupement de données.
L'exemple de code est le suivant :
import pandas as pd # 创建一个示例数据集 data = pd.DataFrame({'A': ['apple', 'orange', 'banana', 'apple', 'banana'], 'B': ['red', 'orange', 'yellow', 'green', 'yellow'], 'C': [1, 2, 3, 4, 5]}) # 按照A列进行分组 grouped_data = data.groupby('A') # 遍历每个组 for name, group in grouped_data: print(name) print(group) print()
Exécutez le code ci-dessus, le résultat de sortie est le suivant :
apple A B C 0 apple red 1 3 apple green 4 banana A B C 2 banana yellow 3 4 banana yellow 5 orange A B C 1 orange orange 2
Utilisez la fonction groupby() pour regrouper les données en fonction de la colonne « A », parcourez chaque groupe et sortir. Comme vous pouvez le voir, les données sont regroupées et sorties avec succès en fonction des différentes valeurs de la colonne « A ».
3. Application combinée de l'agrégation et du regroupement de données
Dans le traitement réel des données, il est souvent nécessaire de combiner l'agrégation et le regroupement. Par exemple, dans un ensemble de données de ventes, vous pouvez regrouper selon différentes catégories de produits et calculer les ventes totales pour chaque catégorie.
L'exemple de code est le suivant :
import pandas as pd # 创建一个示例数据集 data = pd.DataFrame({'Category': ['Fruit', 'Vegetable', 'Fruit', 'Vegetable', 'Fruit'], 'Product': ['Apple', 'Carrot', 'Orange', 'Broccoli', 'Banana'], 'Sales': [100, 200, 150, 250, 120]}) # 按照Category列进行分组,并计算Sales列的总和 result = data.groupby('Category')['Sales'].sum() print(result)
Exécutez le code ci-dessus et le résultat de sortie est le suivant :
Category Fruit 370 Vegetable 450 Name: Sales, dtype: int64
Dans le code ci-dessus, les données sont d'abord regroupées par la colonne 'Catégorie' via la fonction groupby(), puis la fonction sum() est utilisée pour calculer chaque catégorie de ventes totales.
Résumé :
Cet article explique comment utiliser la bibliothèque pandas pour l'agrégation et le regroupement de données en Python. La fonction groupby() peut être utilisée pour agréger et regrouper des données, et peut être combinée avec d'autres fonctions pour effectuer des opérations plus complexes. L'agrégation et le regroupement des données sont des étapes importantes du traitement des données et sont très utiles pour l'analyse des données et les statistiques. J'espère que cet article sera utile à tout le monde dans l'agrégation et le regroupement de données en Python.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!