So aggregieren und gruppieren Sie Daten in Python
Im Prozess der Datenanalyse und -verarbeitung ist es häufig erforderlich, Daten zu aggregieren und zu gruppieren. Python bietet eine Vielzahl leistungsstarker Bibliotheken und Tools, um Datenaggregations- und Gruppierungsvorgänge zu erleichtern. In diesem Artikel wird die Verwendung der Pandas-Bibliothek für die Datenaggregation und -gruppierung in Python vorgestellt und spezifische Codebeispiele bereitgestellt.
1. Datenaggregation
Datenaggregation ist der Vorgang, bei dem mehrere Daten zu einem oder einer kleinen Anzahl von Daten zusammengeführt werden. In Python können Sie die Funktion groupby() in der Pandas-Bibliothek zur Datenaggregation verwenden.
Der Beispielcode lautet wie folgt:
import pandas as pd # 创建一个示例数据集 data = pd.DataFrame({'A': ['apple', 'orange', 'banana', 'apple', 'banana'], 'B': ['red', 'orange', 'yellow', 'green', 'yellow'], 'C': [1, 2, 3, 4, 5]}) # 按照A列进行聚合,计算C列的总和 result = data.groupby('A')['C'].sum() print(result)
Führen Sie den obigen Code aus und das Ausgabeergebnis lautet wie folgt:
A apple 5 banana 8 orange 2 Name: C, dtype: int64
Unter diesen spezifiziert die Funktion groupby() die Aggregation gemäß der Spalte „A“ und sum() Die Funktion berechnet die Summe der Spalte „C“.
2. Datengruppierung
Datengruppierung ist der Vorgang der Gruppierung von Daten nach einem bestimmten Standard. Ebenso können Sie in Python die Funktion groupby() in der Pandas-Bibliothek zum Gruppieren von Daten verwenden.
Der Beispielcode lautet wie folgt:
import pandas as pd # 创建一个示例数据集 data = pd.DataFrame({'A': ['apple', 'orange', 'banana', 'apple', 'banana'], 'B': ['red', 'orange', 'yellow', 'green', 'yellow'], 'C': [1, 2, 3, 4, 5]}) # 按照A列进行分组 grouped_data = data.groupby('A') # 遍历每个组 for name, group in grouped_data: print(name) print(group) print()
Führen Sie den obigen Code aus. Das Ausgabeergebnis lautet wie folgt:
apple A B C 0 apple red 1 3 apple green 4 banana A B C 2 banana yellow 3 4 banana yellow 5 orange A B C 1 orange orange 2
Verwenden Sie die Funktion „groupby()“, um die Daten entsprechend der Spalte „A“ zu gruppieren, durchlaufen Sie jede Gruppe und Ausgabe. Wie Sie sehen, wurden die Daten entsprechend den unterschiedlichen Werten der Spalte „A“ erfolgreich gruppiert und ausgegeben.
3. Kombinierte Anwendung von Datenaggregation und -gruppierung
In der tatsächlichen Datenverarbeitung ist es häufig erforderlich, Aggregation und Gruppierung zu kombinieren. Beispielsweise können Sie in einem Verkaufsdatensatz nach verschiedenen Produktkategorien gruppieren und den Gesamtumsatz für jede Kategorie berechnen.
Der Beispielcode lautet wie folgt:
import pandas as pd # 创建一个示例数据集 data = pd.DataFrame({'Category': ['Fruit', 'Vegetable', 'Fruit', 'Vegetable', 'Fruit'], 'Product': ['Apple', 'Carrot', 'Orange', 'Broccoli', 'Banana'], 'Sales': [100, 200, 150, 250, 120]}) # 按照Category列进行分组,并计算Sales列的总和 result = data.groupby('Category')['Sales'].sum() print(result)
Führen Sie den obigen Code aus und das Ausgabeergebnis ist wie folgt:
Category Fruit 370 Vegetable 450 Name: Sales, dtype: int64
Im obigen Code werden die Daten zunächst durch die Funktion „groupby()“ nach der Spalte „Kategorie“ gruppiert. und dann wird die Funktion sum() verwendet, um jede Kategorie des Gesamtumsatzes zu berechnen.
Zusammenfassung:
In diesem Artikel wird die Verwendung der Pandas-Bibliothek für die Datenaggregation und -gruppierung in Python vorgestellt. Die Funktion „groupby()“ kann zum Aggregieren und Gruppieren von Daten verwendet werden und kann mit anderen Funktionen kombiniert werden, um komplexere Vorgänge auszuführen. Datenaggregation und -gruppierung sind wichtige Schritte in der Datenverarbeitung und für die Datenanalyse und Statistik sehr nützlich. Ich hoffe, dass dieser Artikel allen bei der Datenaggregation und -gruppierung in Python hilfreich sein wird.
Das obige ist der detaillierte Inhalt vonSo führen Sie Datenaggregation und -gruppierung in Python durch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!