我有一个数据框,它有一些组,我想根据分数列的上一个可用值和下一个可用值平均值来填充缺少的值,即(上一个值+下一个值)/2
我想按州、学校、班级、科目分组,然后填入值
如果分数列中第一个值不可用,则用下一个或多个可用值填充该值 如果最后一个值不可用,则用以前可用的值填充该值 对于每个组,都需要遵循这一点
这是一个数据插补的复杂问题。我在网上搜索发现熊猫有一些功能,比如。 pandas.core.groupby.DataFrameGroupBy.ffill但不知道如何在这种情况下使用
我想用python、pyspark、SQL来解决这个问题
我的数据框看起来像这样
也许这是有帮助的-
加载测试数据
从分数列中输入空值(检查新的分数列)
相关问题 更多 >
编程相关推荐