Heim > Backend-Entwicklung > Python-Tutorial > Wie kann Pandas GroupBy Statistiken berechnen und Zeilenanzahlen für die Datenanalyse einbeziehen?

Wie kann Pandas GroupBy Statistiken berechnen und Zeilenanzahlen für die Datenanalyse einbeziehen?

Linda Hamilton
Freigeben: 2025-01-03 00:54:39
Original
384 Leute haben es durchsucht

How Can Pandas GroupBy Calculate Statistics and Include Row Counts for Data Analysis?

Erhalten Sie Statistiken für jede Gruppe mit Pandas GroupBy

Bei der Durchführung von Datenanalysen ist es häufig erforderlich, Daten zusammenzufassen und Statistiken für Gruppen von Beobachtungen zu berechnen . Die GroupBy-Funktion von Pandas bietet hierfür eine praktische Möglichkeit.

Um Gruppenstatistiken zu berechnen, verwenden Sie einfach die .groupby()-Methode im DataFrame und geben Sie die Spalten an, nach denen gruppiert werden soll. Anschließend können Sie die .agg()-Methode verwenden, um die Daten innerhalb jeder Gruppe zu aggregieren.

Der folgende Code gruppiert beispielsweise die Daten nach den Spalten „col1“ und „col2“ und berechnet den Mittelwert:

df['col1', 'col2'].groupby(['col1', 'col2']).mean()
Nach dem Login kopieren

Dadurch wird ein DataFrame mit den Gruppenstatistiken zurückgegeben, ähnlich wie:

      col3  col4  col5  col6
col1 col2              
A     B    -0.3725  -0.810   0.0325  0.5425
C     D    -0.4766  -0.110   1.3467 -0.6833
E     F     0.4550   0.475  -1.0650  0.0300
G     H     1.4800  -0.630   0.6500  0.1700
Nach dem Login kopieren

Einschließlich Zeile Anzahlen

Das Hinzufügen von Zeilenanzahlen zu den Gruppenstatistiken ist unkompliziert. Mit der Methode .size() können Sie die Anzahl der Zeilen in jeder Gruppe zählen. Zum Beispiel:

df.groupby(['col1', 'col2']).size()
Nach dem Login kopieren

Dadurch wird eine Serie mit der Zeilenanzahl zurückgegeben, die Sie dann zum DataFrame hinzufügen können:

df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Nach dem Login kopieren

Einschließlich mehrerer Statistiken

Zusätzlich zum Mittelwert können Sie mit der Methode .agg() auch andere Statistiken wie Median, Minimum und Maximum berechnen. Der folgende Code berechnet beispielsweise den Mittelwert, den Median und das Minimum der Spalte „col4“:

df.groupby(['col1', 'col2']).agg({'col4': ['mean', 'median', 'min']})
Nach dem Login kopieren

Dadurch wird ein DataFrame mit den Gruppenstatistiken zurückgegeben, ähnlich wie:

            col4                  
          mean median  min
col1 col2                   
A    B  -0.3725 -0.810  -1.32
C    D  -0.4766 -0.110  -1.65
E    F   0.4550  0.475  -0.47
G    H   1.4800 -0.630  -0.63
Nach dem Login kopieren

Zusätzliche Überlegungen

  • Wenn Sie nach mehreren Spalten gruppieren möchten, verwenden Sie eine Liste innerhalb der .groupby()-Methode.
  • Fehlende Werte können sich auf Gruppenberechnungen auswirken. Pandas schließt fehlende Werte bei Berechnungen wie Mittelwert und Median aus.
  • Wenn Sie mit großen Datenmengen arbeiten, sollten Sie die Verwendung der .agg()-Methode mit dem Chunksize-Parameter in Betracht ziehen, um die Leistung zu verbessern.

Das obige ist der detaillierte Inhalt vonWie kann Pandas GroupBy Statistiken berechnen und Zeilenanzahlen für die Datenanalyse einbeziehen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage