id ord a1 a2 a3
-- --- -- --- ------
1 1 44 2.3 banana
1 3 21 2.3 banana
1 2 21 2.3 banana <- mangle should drop this one
2 1 ...
...
我在这里的目标是,在每个组中(由索引id
)按ord
排序,删除连续的“未更改”行。我的第一次尝试是一个groupby.apply
类型的解决方案,耗时数小时。在
我转向map_partitions
,但无法解释为什么它运行得异常缓慢。在单个Dask分区上,单个核心(约20万行)需要2秒的时间。在64核机器(总共约500个分区)上的dask数据帧上映射此数据需要大约10000秒!在
目前没有回答
相关问题 更多 >
编程相关推荐