Erhalten Sie Statistiken für jede Gruppe mit Pandas GroupBy
Bei der Durchführung von Datenanalysen ist es häufig erforderlich, Daten zusammenzufassen und Statistiken für Gruppen von Beobachtungen zu berechnen . Die GroupBy-Funktion von Pandas bietet hierfür eine praktische Möglichkeit.
Um Gruppenstatistiken zu berechnen, verwenden Sie einfach die .groupby()-Methode im DataFrame und geben Sie die Spalten an, nach denen gruppiert werden soll. Anschließend können Sie die .agg()-Methode verwenden, um die Daten innerhalb jeder Gruppe zu aggregieren.
Der folgende Code gruppiert beispielsweise die Daten nach den Spalten „col1“ und „col2“ und berechnet den Mittelwert:
df['col1', 'col2'].groupby(['col1', 'col2']).mean()
Dadurch wird ein DataFrame mit den Gruppenstatistiken zurückgegeben, ähnlich wie:
col3 col4 col5 col6 col1 col2 A B -0.3725 -0.810 0.0325 0.5425 C D -0.4766 -0.110 1.3467 -0.6833 E F 0.4550 0.475 -1.0650 0.0300 G H 1.4800 -0.630 0.6500 0.1700
Einschließlich Zeile Anzahlen
Das Hinzufügen von Zeilenanzahlen zu den Gruppenstatistiken ist unkompliziert. Mit der Methode .size() können Sie die Anzahl der Zeilen in jeder Gruppe zählen. Zum Beispiel:
df.groupby(['col1', 'col2']).size()
Dadurch wird eine Serie mit der Zeilenanzahl zurückgegeben, die Sie dann zum DataFrame hinzufügen können:
df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Einschließlich mehrerer Statistiken
Zusätzlich zum Mittelwert können Sie mit der Methode .agg() auch andere Statistiken wie Median, Minimum und Maximum berechnen. Der folgende Code berechnet beispielsweise den Mittelwert, den Median und das Minimum der Spalte „col4“:
df.groupby(['col1', 'col2']).agg({'col4': ['mean', 'median', 'min']})
Dadurch wird ein DataFrame mit den Gruppenstatistiken zurückgegeben, ähnlich wie:
col4 mean median min col1 col2 A B -0.3725 -0.810 -1.32 C D -0.4766 -0.110 -1.65 E F 0.4550 0.475 -0.47 G H 1.4800 -0.630 -0.63
Zusätzliche Überlegungen
Das obige ist der detaillierte Inhalt vonWie kann Pandas GroupBy Statistiken berechnen und Zeilenanzahlen für die Datenanalyse einbeziehen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!