如何通过多次重复“另一列的大小”值来创建数组列？

+-------+--------------------+--------------------+ | id| values| score| +-------+--------------------+--------------------+ |sample1| [12.0, 10.0]| [2, 2] | |sample2|[1.0, 2.0, 3.0, 4.0]| [2, 2, 2, 2]| +-------+--------------------+--------------------+

2条回答

网友

1楼 · 编辑于 2024-04-25 19:44:19

函数^{}仅适用于Spark 2.4+。对于旧版本，可以使用UDF完成此操作：

from pyspark.sql.functions import udf, size, lit
from pyspark.sql.types import ArrayType, IntegerType


array_repeat_udf = udf(lambda v, n: [v for _ in range(n)], ArrayType(IntegerType()))

df1 = df.withColumn('score', array_repeat_udf(lit(2), size("values")))
df1.show()

#+   -+          +      +
#|     id|              values|       score|
#+   -+          +      +
#|sample1|        [12.0, 10.0]|      [2, 2]|
#|sample2|[1.0, 2.0, 3.0, 4.0]|[2, 2, 2, 2]|
#+   -+          +      +

网友

2楼 · 编辑于 2024-04-25 19:44:19

不能将Python列表与Spark列相乘。您可以使用array_repeat函数

import pyspark.sql.functions as F

df2 = df.withColumn('score', F.expr('array_repeat(2, size(values))'))
df2.show()
+   -+          +      +
|     id|              values|       score|
+   -+          +      +
|sample1|        [12.0, 10.0]|      [2, 2]|
|sample2|[1.0, 2.0, 3.0, 4.0]|[2, 2, 2, 2]|
+   -+          +      +

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何通过多次重复“另一列的大小”值来创建数组列？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >