根据其他列中满足的条件添加列

DeviceID max(A) max(B) max(INUT) Status 0023002 2.5 3.7 8.1 'Balance' 0023045 2.2 1.3 11.3 'ImBalance' 0023008 4.7 2.3 1.9 'Balance'

from pyspark.sql.function import col import pyspark.sql.function as F df_final = df.withColumn( 'Status', F.when(col('max(INUT)')*0.20 > F.greatest(col('max(A)'),col('max(B)'), 'Imbalance')\ .otherwise('Balance')

1条回答

网友

1楼 · 发布于 2024-05-12 21:26:51

有一些小的语法错误，这是您的最终代码：

import pyspark.sql.functions as F

df = spark.createDataFrame(
[("0023002", 2.5, 3.7, 8.1),
("0023045", 2.2, 1.3, 11.3),
("0023008", 4.7, 2.3, 1.9)], ["DeviceID", "max_A", "max_B", "max_INUT"])

df_final = df.withColumn('Status', \
             F.when(F.col('max_INUT')*0.20 > F.greatest(F.col('max_A'),F.col('max_B')), 'Imbalance') \
         .otherwise('Balance'))

以及一些评论：

要使用pyspark.sql.functions中的函数，只需使用F alias。你不需要导入两次。你知道吗
缺少一些括号
我还替换了max(A) -> max_A，因为我相信它更容易阅读

输出：

+    +  -+  -+    +    -+
|DeviceID|max_A|max_B|max_INUT|   Status|
+    +  -+  -+    +    -+
| 0023002|  2.5|  3.7|     8.1|  Balance|
| 0023045|  2.2|  1.3|    11.3|Imbalance|
| 0023008|  4.7|  2.3|     1.9|  Balance|
+    +  -+  -+    +    -+

相关问题更多 >

编程相关推荐

热门问题

热门文章

根据其他列中满足的条件添加列

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >