2024-05-15 01:20:07 发布
网友
我正在处理一些会计分录,会计分录是双分录,这意味着两行对应一个交易
我希望在不重复计算这些条目的情况下进行一些分析,起初我想在pandas中使用drop_duplicates()方法,但我发现它会删除多次预订的相同条目
例如,数据集中的10个条目代表5个会计条目,如果这5个会计条目相同,drop_duplicates()方法将只剩下1个条目
示例输入
A A A A B B
期望输出
A A B
哪种最快的方式只删除一半的条目
我认为您需要重新访问您的数据并查看每个重复的uniqueness的位置,您可以向drop_duplicates添加参数,例如subset和keep来指定您的条件
uniqueness
drop_duplicates
subset
keep
也就是说,为了处理这个问题,我们需要对每个组进行计数,并将计数除以每个组的size
size
然后,我们可以保留那些满足初始50%阈值的
排成一行
print(df) 0 0 A 1 A 2 A 3 A 4 B 5 B df[((df.groupby(0).cumcount() + 1) / df.groupby(0)[0].transform('size')).le(0.5)] 0 0 A 1 A 4 B
我认为您需要重新访问您的数据并查看每个重复的
uniqueness
的位置,您可以向drop_duplicates
添加参数,例如subset
和keep
来指定您的条件也就是说,为了处理这个问题,我们需要对每个组进行计数,并将计数除以每个组的
size
然后,我们可以保留那些满足初始50%阈值的
排成一行
相关问题 更多 >
编程相关推荐