Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimanakah Pandas GroupBy Boleh Mengira Statistik dan Menyertakan Kiraan Baris untuk Analisis Data?

Bagaimanakah Pandas GroupBy Boleh Mengira Statistik dan Menyertakan Kiraan Baris untuk Analisis Data?

Linda Hamilton
Lepaskan: 2025-01-03 00:54:39
asal
352 orang telah melayarinya

How Can Pandas GroupBy Calculate Statistics and Include Row Counts for Data Analysis?

Dapatkan Statistik untuk Setiap Kumpulan Menggunakan Pandas GroupBy

Apabila melakukan analisis data, selalunya perlu meringkaskan data dan mengira statistik untuk kumpulan pemerhatian . Fungsi GroupBy Pandas menyediakan cara yang mudah untuk melakukan ini.

Untuk mengira statistik kumpulan, hanya gunakan kaedah .groupby() pada DataFrame dan tentukan lajur untuk dikumpulkan mengikut. Kemudian, anda boleh menggunakan kaedah .agg() untuk mengagregat data dalam setiap kumpulan.

Sebagai contoh, kod berikut mengumpulkan data mengikut lajur "col1" dan "col2" dan mengira min:

df['col1', 'col2'].groupby(['col1', 'col2']).mean()
Salin selepas log masuk

Ini akan mengembalikan DataFrame dengan statistik kumpulan, serupa kepada:

      col3  col4  col5  col6
col1 col2              
A     B    -0.3725  -0.810   0.0325  0.5425
C     D    -0.4766  -0.110   1.3467 -0.6833
E     F     0.4550   0.475  -1.0650  0.0300
G     H     1.4800  -0.630   0.6500  0.1700
Salin selepas log masuk

Termasuk Kiraan Baris

Menambah kiraan baris pada statistik kumpulan adalah mudah. Anda boleh menggunakan kaedah .size() untuk mengira bilangan baris dalam setiap kumpulan. Contohnya:

df.groupby(['col1', 'col2']).size()
Salin selepas log masuk

Ini akan mengembalikan Siri dengan kiraan baris, yang kemudiannya boleh anda tambahkan pada DataFrame:

df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Salin selepas log masuk

Termasuk Berbilang Statistik

Selain min, anda boleh mengira statistik lain seperti median, minimum dan maksimum menggunakan .agg() kaedah. Sebagai contoh, kod berikut mengira min, median dan minimum lajur "col4":

df.groupby(['col1', 'col2']).agg({'col4': ['mean', 'median', 'min']})
Salin selepas log masuk

Ini akan mengembalikan DataFrame dengan statistik kumpulan, serupa dengan:

            col4                  
          mean median  min
col1 col2                   
A    B  -0.3725 -0.810  -1.32
C    D  -0.4766 -0.110  -1.65
E    F   0.4550  0.475  -0.47
G    H   1.4800 -0.630  -0.63
Salin selepas log masuk

Pertimbangan Tambahan

  • Jika anda ingin mengumpulkan berbilang lajur, gunakan senarai dalam kaedah .groupby().
  • Nilai yang tiada boleh memberi kesan kepada pengiraan kumpulan. Panda akan mengecualikan nilai yang hilang semasa pengiraan seperti min dan median.
  • Apabila bekerja dengan set data yang besar, pertimbangkan untuk menggunakan kaedah .agg() dengan parameter chunksize untuk meningkatkan prestasi.

Atas ialah kandungan terperinci Bagaimanakah Pandas GroupBy Boleh Mengira Statistik dan Menyertakan Kiraan Baris untuk Analisis Data?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan