性能行为数据帧地图分区

2024-05-13 19:19:49 发布

男 | 程序猿一只，喜欢编程写python代码。

id    ord     a1     a2     a3
--    ---     --     ---    ------
1     1       44     2.3    banana
1     3       21     2.3    banana
1     2       21     2.3    banana    <- mangle should drop this one
2     1       ...
...

我在这里的目标是，在每个组中（由索引id）按ord排序，删除连续的“未更改”行。我的第一次尝试是一个groupby.apply类型的解决方案，耗时数小时。在

我转向map_partitions，但无法解释为什么它运行得异常缓慢。在单个Dask分区上，单个核心（约20万行）需要2秒的时间。在64核机器（总共约500个分区）上的dask数据帧上映射此数据需要大约10000秒！在

^{pr2}$

Tags：数据 id a2 目标排序 a1 this one

0条回答

目前没有回答

性能行为数据帧地图分区

相关问题更多 >

编程相关推荐

热门问题

热门文章

性能行为数据帧地图分区

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >