Pandas在每组中获得最多的n个记录

>>> df = pd.DataFrame({'id':[1,1,1,2,2,2,2,3,4],'value':[1,2,3,1,2,3,4,1,1]}) >>> df id value 0 1 1 1 1 2 2 1 3 3 2 1 4 2 2 5 2 3 6 2 4 7 3 1 8 4 1

>>> dfN = df.groupby('id').apply(lambda x:x['value'].reset_index()).reset_index() >>> dfN id level_1 index value 0 1 0 0 1 1 1 1 1 2 2 1 2 2 3 3 2 0 3 1 4 2 1 4 2 5 2 2 5 3 6 2 3 6 4 7 3 0 7 1 8 4 0 8 1 >>> dfN[dfN['level_1'] <= 1][['id', 'value']] id value 0 1 1 1 1 2 3 2 1 4 2 2 7 3 1 8 4 1

3条回答

网友

1楼 · 编辑于 2024-06-07 05:12:57

你试过df.groupby('id').head(2)

输出生成：

>>> df.groupby('id').head(2)
       id  value
id             
1  0   1      1
   1   1      2 
2  3   2      1
   4   2      2
3  7   3      1
4  8   4      1

（请记住，根据您的数据，您可能需要在之前进行排序/排序）

编辑：如提问者所述，使用df.groupby('id').head(2).reset_index(drop=True)删除multindex并展平结果。

>>> df.groupby('id').head(2).reset_index(drop=True)
    id  value
0   1      1
1   1      2
2   2      1
3   2      2
4   3      1
5   4      1

网友

2楼 · 编辑于 2024-06-07 05:12:57

有时提前对整个数据进行排序非常耗时。我们可以先分组，然后为每个组执行topk：

g = df.groupby(['id']).apply(lambda x: x.nlargest(topk,['value'])).reset_index(drop=True)

网友

3楼 · 编辑于 2024-06-07 05:12:57

Since 0.14.1，现在可以对一个groupby对象执行nlargest和nsmallest操作：

In [23]: df.groupby('id')['value'].nlargest(2)
Out[23]: 
id   
1   2    3
    1    2
2   6    4
    5    3
3   7    1
4   8    1
dtype: int64

还有一点奇怪的是，你在那里也得到了原始索引，但这可能真的很有用，这取决于你的原始索引是什么。

如果你对它不感兴趣，你可以做.reset_index(level=1, drop=True)来彻底摆脱它。

（注意：From 0.17.1您也可以在DataFrameGroupBy上执行此操作，但目前它只适用于Series和SeriesGroupBy。）

相关问题更多 >

编程相关推荐

热门问题

热门文章