Pandas groupby on Multiple Fields with Difference Calculation
Dalam pengaturcaraan, memanipulasi data adalah penting dan Pandas ialah perpustakaan yang berkuasa untuk melaksanakan tugasan ini dengan cekap. Satu soalan biasa ialah cara mengumpulkan data mengikut berbilang medan dan mengira perbezaan. Mari kita terokai cara untuk mencapainya.
Masalah:
Pertimbangkan DataFrame dengan struktur berikut:
date site country score 0 2018-01-01 google us 100 1 2018-01-01 google ch 50 2 2018-01-02 google us 70 3 2018-01-03 google us 60 ...
Matlamatnya adalah untuk mencari Perbezaan markah 1/3/5 hari untuk setiap gabungan 'tapak/negara'.
Penyelesaian:
Untuk menyelesaikan masalah ini, kami boleh menggunakan kumpulan Pandas dan fungsi diff:
df = df.sort_values(by=['site', 'country', 'date'])
Isih memastikan data kami disusun untuk pengiraan pengumpulan dan perbezaan yang betul.
df['diff'] = df.groupby(['site', 'country'])['score'].diff().fillna(0)
Baris ini mengumpulkan DataFrame mengikut lajur 'tapak' dan 'negara' menggunakan kumpulan mengikut. Kemudian, ia mengira perbezaan antara setiap skor berturut-turut dalam setiap kumpulan menggunakan perbezaan. Hasilnya disimpan dalam lajur baharu yang dipanggil 'diff.' Sebarang nilai yang hilang digantikan dengan 0 menggunakan fillna(0).
Output:
DataFrame yang terhasil akan mengandungi lajur asal bersama lajur 'diff':
date site country score diff 0 2018-01-01 fb es 100 0.0 1 2018-01-02 fb gb 100 0.0 ...
Kaedah ini boleh digunakan untuk mengira perbezaan pada sebarang selang masa (cth., 1 hari, 3 bulan, dsb.).
Atas ialah kandungan terperinci Bagaimana untuk Mengira Perbezaan dalam Skor untuk Pelbagai Medan dalam Bingkai Data Pandas?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!