Groupby根据先前可用值和下一个可用值的平均值填充dataframe中缺少的值

1条回答

网友

1楼 · 发布于 2024-04-20 07:57:45

也许这是有帮助的-

加载测试数据

df2.show(false)
    df2.printSchema()
    /**
      * +  -+  -+
      * |class|score|
      * +  -+  -+
      * |A    |null |
      * |A    |46   |
      * |A    |null |
      * |A    |null |
      * |A    |35   |
      * |A    |null |
      * |A    |null |
      * |A    |null |
      * |A    |46   |
      * |A    |null |
      * |A    |null |
      * |B    |78   |
      * |B    |null |
      * |B    |null |
      * |B    |null |
      * |B    |null |
      * |B    |null |
      * |B    |56   |
      * |B    |null |
      * +  -+  -+
      *
      * root
      * |  class: string (nullable = true)
      * |  score: integer (nullable = true)
      */

从分数列中输入空值（检查新的分数列）


    val w1 = Window.partitionBy("class").rowsBetween(Window.unboundedPreceding, Window.currentRow)
    val w2 = Window.partitionBy("class").rowsBetween(Window.currentRow, Window.unboundedFollowing)
    df2.withColumn("previous", last("score", ignoreNulls = true).over(w1))
      .withColumn("next", first("score", ignoreNulls = true).over(w2))
      .withColumn("new_score", (coalesce($"previous", $"next") + coalesce($"next", $"previous")) / 2)
      .drop("next", "previous")
      .show(false)

    /**
      * +  -+  -+    -+
      * |class|score|new_score|
      * +  -+  -+    -+
      * |A    |null |46.0     |
      * |A    |46   |46.0     |
      * |A    |null |40.5     |
      * |A    |null |40.5     |
      * |A    |35   |35.0     |
      * |A    |null |40.5     |
      * |A    |null |40.5     |
      * |A    |null |40.5     |
      * |A    |46   |46.0     |
      * |A    |null |46.0     |
      * |A    |null |46.0     |
      * |B    |78   |78.0     |
      * |B    |null |67.0     |
      * |B    |null |67.0     |
      * |B    |null |67.0     |
      * |B    |null |67.0     |
      * |B    |null |67.0     |
      * |B    |56   |56.0     |
      * |B    |null |56.0     |
      * +  -+  -+    -+
      */

加载测试数据

从分数列中输入空值（检查新的分数列）

相关问题更多 >

编程相关推荐

热门问题

热门文章

Groupby根据先前可用值和下一个可用值的平均值填充dataframe中缺少的值

加载测试数据

从分数列中输入空值（检查新的分数列）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >