Membezakan 'saiz' dan 'kira' Panda untuk Operasi Pengumpulan
Apabila bekerja dengan fungsi groupby() panda, adalah penting untuk memahami perbezaan antara 'saiz' dan 'kira'. Fungsi ini nampaknya menghasilkan hasil yang serupa apabila digunakan pada kiraan kumpulan, tetapi terdapat perbezaan halus yang boleh memberi kesan kepada analisis data anda.
Fungsi 'kira' secara khusus mengira bilangan nilai bukan nol dalam kumpulan. Ini bermakna jika terdapat sebarang nilai yang hilang (NaN atau Tiada) dalam kumpulan, nilai tersebut akan dikecualikan daripada kiraan. Tingkah laku ini memastikan anda hanya mempertimbangkan pemerhatian yang sah semasa mengira kiraan kumpulan.
Sebaliknya, fungsi 'saiz' mengira jumlah bilangan pemerhatian dalam kumpulan, termasuk yang mempunyai nilai yang tiada. Ini bermakna kedua-dua pemerhatian yang sah dan tidak sah dikira, memberikan anda gambaran yang lebih luas tentang saiz kumpulan.
Untuk menggambarkan perbezaan ini, pertimbangkan contoh berikut:
df = pd.DataFrame({'a': [0, 0, 1, 2, 2, 2], 'b': [1, 2, 3, 4, np.NaN, 4], 'c': np.random.randn(6)}) print(df.groupby(['a'])['b'].count()) print(df.groupby(['a'])['b'].size())
Output akan menjadi :
a 0 2 1 1 2 2 Name: b, dtype: int64 a 0 2 1 1 2 3 dtype: int64
Seperti yang anda lihat, fungsi 'count' mengecualikan nilai NaN dalam kumpulan 'a=2', manakala fungsi 'saiz' merangkuminya. Perbezaan ini penting apabila set data anda mengandungi data yang hilang dan anda perlu mengendalikannya dengan sewajarnya untuk analisis anda.
Atas ialah kandungan terperinci Pandas GroupOleh: Bilakah Saya Perlu Menggunakan `saiz` lwn. `kira`?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!