Apabila bekerja dengan data terkumpul, selalunya perlu menggunakan berbilang fungsi pada berbilang lajur. Pustaka Pandas menyediakan beberapa kaedah untuk mencapai ini, termasuk kaedah agg dan gunakan. Walau bagaimanapun, kaedah ini mempunyai had tertentu dan mungkin tidak selalu memenuhi kes penggunaan tertentu.
Seperti yang dinyatakan dalam soalan, adalah mungkin untuk menggunakan berbilang fungsi pada siri kumpulan mengikut objek menggunakan kamus:
grouped['D'].agg({'result1' : np.sum, 'result2' : np.mean})
Pendekatan ini membenarkan penentuan nama lajur sebagai kunci dan fungsi yang sepadan sebagai nilai. Walau bagaimanapun, ini hanya berfungsi untuk Siri kumpulan mengikut objek. Apabila digunakan pada kumpulan mengikut DataFrame, kunci kamus dijangkakan sebagai nama lajur, bukan nama lajur output.
Soalan juga meneroka menggunakan fungsi lambda dalam agg untuk dilaksanakan operasi berdasarkan lajur lain dalam kumpulan mengikut objek. Pendekatan ini sesuai apabila fungsi anda melibatkan kebergantungan pada lajur lain. Walaupun tidak disokong secara eksplisit oleh kaedah agg, adalah mungkin untuk mengatasi had ini dengan menentukan nama lajur secara manual sebagai rentetan:
grouped.agg({'C_sum' : lambda x: x['C'].sum(), 'C_std': lambda x: x['C'].std(), 'D_sum' : lambda x: x['D'].sum()}, 'D_sumifC3': lambda x: x['D'][x['C'] == 3].sum(), ...)
Pendekatan ini membenarkan penggunaan berbilang fungsi pada lajur yang berbeza, termasuk yang bergantung pada yang lain . Walau bagaimanapun, ia boleh bertele-tele dan memerlukan pengendalian nama lajur yang berhati-hati.
Pendekatan yang lebih fleksibel ialah menggunakan kaedah guna, yang menghantar keseluruhan DataFrame kumpulan kepada fungsi yang disediakan. Ini membolehkan melakukan operasi dan interaksi yang lebih kompleks antara lajur dalam kumpulan:
def f(x): d = {} d['a_sum'] = x['a'].sum() d['a_max'] = x['a'].max() d['b_mean'] = x['b'].mean() d['c_d_prodsum'] = (x['c'] * x['d']).sum() return pd.Series(d, index=['a_sum', 'a_max', 'b_mean', 'c_d_prodsum']) df.groupby('group').apply(f)
Dengan mengembalikan Siri dengan lajur berlabel yang sesuai, anda boleh melakukan berbilang pengiraan dengan mudah pada kumpulan mengikut DataFrame. Pendekatan ini lebih serba boleh dan membenarkan operasi kompleks berdasarkan berbilang lajur.
Menggunakan berbilang fungsi pada berbilang lajur berkumpulan memerlukan pertimbangan yang teliti terhadap struktur data dan operasi yang diingini. Kaedah agg sesuai untuk operasi mudah pada objek Siri, manakala kaedah guna menawarkan fleksibiliti yang lebih besar apabila bekerja dengan kumpulan mengikut DataFrames atau melakukan pengiraan yang rumit.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Menggunakan Berbilang Fungsi dengan Cekap pada Berbilang Lajur Kumpulan Mengikut Lajur dalam Panda?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!