针对重复的A列值查找B列值最大的行
在数据分析中,经常需要去除重复记录,同时保留独特的数据。一种常见的场景涉及特定列(A 列)中具有重复值的数据集,其目标是将具有最高值的行保留在另一列(B 列)中。
要实现此目的,第一个解决方案利用 drop_duplicates() 函数和 keep="last" 参数。这会根据 A 列删除重复行,同时保留最后看到的行,而不管 B 列中的值如何。
但是,如果目标是保留 B 列中具有最大值的行,则上述解决方案不合适。相反,可以使用 groupby() 和 apply() 的组合,类似于提供的第二个解决方案。此方法按 A 列对行进行分组,对每个组应用一个函数,并选择每个组内 B 列中具有最大值的行。
实现:
import pandas as pd # Create data frame with duplicate values in column A df = pd.DataFrame([[1, 10], [1, 20], [2, 30], [2, 40], [3, 10]], columns=['A', 'B']) # Keep row with maximum value in column B for each duplicate in column A max_b_rows = df.groupby('A', group_keys=False).apply(lambda x: x.loc[x.B.idxmax()]) # Display resulting data frame print(max_b_rows)
输出:
A B A 1 1 20 2 2 40 3 3 10
以上是如何为 A 列中的重复值保留 B 列中具有最大值的行?的详细内容。更多信息请关注PHP中文网其他相关文章!