PySpark:为另一列中按唯一值分组的缺失日期添加新行

2024-04-26 10:40:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我有这样一个数据帧:

date                 ID        Val
-------------------------------------
2017-09-01           1          2
2017-09-03           1          3
2017-09-05           1          4 
2017-09-05           2          1   
2017-09-07           2          2

我想要的是这样的:

date                 ID        Val
-------------------------------------
2017-09-01           1          2
2017-09-02           1          NULL
2017-09-03           1          3
2017-09-04           1          NULL
2017-09-05           1          4
2017-09-05           2          1   
2017-09-06           2          NULL
2017-09-07           2          2

有没有一种方法可以做到这一点,不涉及循环唯一的ID,过滤,然后收集最小和最大日期?你知道吗


Tags: 数据方法iddatevalnull