获取 DataFrame 中每个组的前 n 条记录
要获取 DataFrame 中每个组的前 n 条记录,请考虑使用 Pandas 的有效的方法。假设我们有以下包含“id”和“value”列的 DataFrame:
df = pd.DataFrame({'id': [1, 1, 1, 2, 2, 2, 2, 3, 4], 'value': [1, 2, 3, 1, 2, 3, 4, 1, 1]})
使用 groupby() 和 head() 函数,我们可以检索每个“id”的前 2 条记录:
df_top2 = df.groupby('id').head(2)
输出:
id value id 1 0 1 1 1 1 2 2 3 2 1 4 2 2 3 7 3 1 4 8 4 1
为了展平 MultiIndex 并消除重复的行索引, apply reset_index():
df_top2 = df.groupby('id').head(2).reset_index(drop=True)
结果:
id value 0 1 1 1 1 2 2 2 1 3 2 2 4 3 1 5 4 1
或者,如果在为每组选择前 n 之前需要对记录进行排序,请先应用排序:
df_sorted = df.sort_values('value', ascending=False) df_top2 = df_sorted.groupby('id').head(2)
这提供了一种更高效、更优雅的方法来获取 DataFrame 中每个组中的顶级记录。
以上是如何高效获取 Pandas DataFrame 每组中的前 N 条记录?的详细内容。更多信息请关注PHP中文网其他相关文章!