我正在pyspark中开发一个进程,我有一个数据帧,我试图再添加一列(使用withColumn方法)。在
问题是公式是:
STATUS1 = If 'PETP-today' > 0 then 'Status1 last day' + 'PETP-today' else 0
Status1的每个结果都涉及最后一天结果的Status1。在
我发现的一个解决方案是创建一个pandas数据帧,然后一个一个地运行记录,直到我可以使用变量计算每个记录为止。但是我会有性能问题。你能帮忙吗?在
考虑dataframe列:Date(daily)/PETP(Float)/STATUS1?(浮动)
我真的很感谢你的帮助!在
我认为解决方案的关键是lag函数。试试这个(为了简单起见,我假设所有列的数据都是整数):
首先,将列上移一天
然后在条件中使用该数据
^{pr2}$我希望这就是你想要的。在
相关问题 更多 >
编程相关推荐