在缺少列值时将列值添加到另一列中的数组

+-----------------------------------+------+------+ | value | id | item | +-----------------------------------+------+------+ |[[e1, 0.4] , [e2, 0.3]] | 1 | e3 | |[[e1, 0.4] , [e2, 0.3], [e3, 0.2]] | 2 | e4 | |[[e1, 0.4] , [e2, 0.3]] | 3 | e1 | |[[e1, 0.4] , [e2, 0.3]] | 4 | null | +-----------------------------------+------+------+

+------------------------------------------------+------+------+ | value | id | item | +------------------------------------------------+------+------+ |[[e1, 0.4] , [e2, 0.3], [e3, 0.3]] | 1 | e3 | |[[e1, 0.4] , [e2, 0.3], [e3, 0.2], [e4, 0.2]] | 2 | e4 | |[[e1, 0.4] , [e2, 0.3]] | 3 | e1 | |[[e1, 0.4] , [e2, 0.3]] | 4 | null | +------------------------------------------------+------+------+

1条回答

网友

1楼 · 发布于 2024-04-20 06:55:45

您可以定义udf函数来实现它。你知道吗

import pyspark.sql.functions as F
from pyspark.sql.types import StructType,StructField,ArrayType,StringType,DoubleType

def contains(values,item):
    if not item:
        return values
    keys = [pair['key'] for pair in values]
    if item not in keys:
        scores = [pair['score'] for pair in values]
        values.append({'key':item,'score':min(scores)})
    return values

contains_udf = F.udf(contains,ArrayType(StructType([StructField('key', StringType()),
                                                    StructField('score', DoubleType())])))
df = df.withColumn("value", contains_udf('value','item'))
df.show(truncate = False)

+                      + -+  +
|value                                       |id |item|
+                      + -+  +
|[[e1, 0.4], [e2, 0.3], [e3, 0.3]]           |1  |e3  |
|[[e1, 0.4], [e2, 0.3], [e3, 0.2], [e4, 0.2]]|2  |e4  |
|[[e1, 0.4], [e2, 0.3]]                      |3  |e1  |
|[[e1, 0.4], [e2, 0.3]]                      |4  |null|
+                      + -+  +

相关问题更多 >

编程相关推荐

热门问题

热门文章