性能行为数据帧地图分区

2024-05-13 19:19:49 发布

您现在位置:Python中文网/ 问答频道 /正文

id    ord     a1     a2     a3
--    ---     --     ---    ------
1     1       44     2.3    banana
1     3       21     2.3    banana
1     2       21     2.3    banana    <- mangle should drop this one
2     1       ...
...

我在这里的目标是,在每个组中(由索引id)按ord排序,删除连续的“未更改”行。我的第一次尝试是一个groupby.apply类型的解决方案,耗时数小时。在

我转向map_partitions,但无法解释为什么它运行得异常缓慢。在单个Dask分区上,单个核心(约20万行)需要2秒的时间。在64核机器(总共约500个分区)上的dask数据帧上映射此数据需要大约10000秒!在

^{pr2}$

Tags: 数据ida2目标排序a1thisone