針對重複的A列值找出B列值最大的行
在資料分析中,經常需要移除重複記錄,同時保留獨特的數據。常見的場景涉及特定列(A 列)中具有重複值的資料集,其目標是將具有最高值的行保留在另一列(B 列)中。
要實現此目的,第一個解決方案利用 drop_duplicates() 函數和 keep="last" 參數。這會根據 A 列刪除重複行,同時保留最後看到的行,而不管 B 列中的值如何。
但是,如果目標是保留 B 列中具有最大值的行,則上述解決方案不合適。相反,可以使用 groupby() 和 apply() 的組合,類似於提供的第二個解決方案。此方法按 A 列對行進行分組,對每個組套用一個函數,並選擇每個組內 B 列中具有最大值的行。
實作:
import pandas as pd # Create data frame with duplicate values in column A df = pd.DataFrame([[1, 10], [1, 20], [2, 30], [2, 40], [3, 10]], columns=['A', 'B']) # Keep row with maximum value in column B for each duplicate in column A max_b_rows = df.groupby('A', group_keys=False).apply(lambda x: x.loc[x.B.idxmax()]) # Display resulting data frame print(max_b_rows)
輸出:
A B A 1 1 20 2 2 40 3 3 10
以上是如何為 A 列中的重複值保留 B 列中具有最大值的行?的詳細內容。更多資訊請關注PHP中文網其他相關文章!