Mengalih keluar Pendua mengikut Lajur dan Mengekalkan Baris dengan Nilai Maksimum
Menemui nilai pendua dalam bingkai data boleh menjadi mencabar. Dalam senario yang penting untuk mengekalkan baris dengan nilai sepadan tertinggi, adalah penting untuk menggunakan teknik yang berkesan.
Untuk menangani isu ini, pertimbangkan bingkai data berikut dengan pendua dalam lajur A:
A | B |
---|---|
1 | 10 |
1 | 20 |
2 | 30 |
2 | 40 |
3 | 10 |
Objektifnya adalah untuk mengalih keluar pendua daripada lajur A tetapi mengekalkan baris dengan nilai maksimum dalam lajur B. Sebaik-baiknya, hasilnya harus kelihatan seperti ini:
A | B |
---|---|
1 | 20 |
2 | 40 |
3 | 10 |
Satu pendekatan ialah mengisih kerangka data sebelum mengalih keluar pendua:
df = df.sort_values(by='B', ascending=False) df.drop_duplicates(subset='A', keep='first')
Kaedah ini berfungsi tetapi tidak menjamin mengekalkan nilai maksimum kerana ia mengisih baris dalam tertib menaik. Untuk mengatasi had ini, kita boleh menggunakan pendekatan berikut:
df.groupby('A', group_keys=False).apply(lambda x: x.loc[x.B.idxmax()])
Operasi ini mengumpulkan rangka data mengikut lajur A, mencari indeks dengan nilai maksimum untuk lajur B dan memilih baris yang sepadan. Hasilnya ialah bingkai data yang dikemas kini dengan pendua dialih keluar dan nilai maksimum dikekalkan.
Atas ialah kandungan terperinci Bagaimana untuk Mengalih Keluar Pendua mengikut Lajur dan Mengekalkan Baris dengan Nilai Maksimum?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!