如何指定要在数据帧中的drop_副本中放置的行数

2024-05-15 01:20:07 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在处理一些会计分录,会计分录是双分录,这意味着两行对应一个交易

我希望在不重复计算这些条目的情况下进行一些分析,起初我想在pandas中使用drop_duplicates()方法,但我发现它会删除多次预订的相同条目

例如,数据集中的10个条目代表5个会计条目,如果这5个会计条目相同,drop_duplicates()方法将只剩下1个条目

示例输入

A
A
A
A
B
B

期望输出

A
A
B

哪种最快的方式只删除一半的条目


Tags: 数据方法目的示例pandas方式情况条目
1条回答
网友
1楼 · 发布于 2024-05-15 01:20:07

我认为您需要重新访问您的数据并查看每个重复的uniqueness的位置,您可以向drop_duplicates添加参数,例如subsetkeep来指定您的条件

也就是说,为了处理这个问题,我们需要对每个组进行计数,并将计数除以每个组的size

然后,我们可以保留那些满足初始50%阈值的

排成一行

print(df)

   0
0  A
1  A
2  A
3  A
4  B
5  B

df[((df.groupby(0).cumcount() + 1) / df.groupby(0)[0].transform('size')).le(0.5)]


   0
0  A
1  A
4  B

相关问题 更多 >

    热门问题