如何在PySpark中创建返回字符串数组的udf？ - 问答 - Python中文网

如何在PySpark中创建返回字符串数组的udf？

2024-05-16 11:16:32 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个udf，它返回一个字符串列表。这不应该太难。我在执行udf时传入数据类型，因为它返回一个字符串数组：ArrayType(StringType)。

现在，不知怎么的，这不起作用：

我正在操作的数据帧是df_subsets_concat，如下所示：

df_subsets_concat.show(3,False)

+----------------------+
|col1                  |
+----------------------+
|oculunt               |
|predistposed          |
|incredulous           |
+----------------------+
only showing top 3 rows

密码是

from pyspark.sql.types import ArrayType, FloatType, StringType

my_udf = lambda domain: ['s','n']
label_udf = udf(my_udf, ArrayType(StringType))
df_subsets_concat_with_md = df_subsets_concat.withColumn('subset', label_udf(df_subsets_concat.col1))

结果是

/usr/lib/spark/python/pyspark/sql/types.py in __init__(self, elementType, containsNull)
    288         False
    289         """
--> 290         assert isinstance(elementType, DataType), "elementType should be DataType"
    291         self.elementType = elementType
    292         self.containsNull = containsNull

AssertionError: elementType should be DataType

据我所知，这是正确的做法。以下是一些资源： pySpark Data Frames "assert isinstance(dataType, DataType), "dataType should be DataType"How to return a "Tuple type" in a UDF in PySpark?

但这两个都没有帮助我解决为什么这不起作用。我正在使用pyspark 1.6.1。

如何在pyspark中创建返回字符串数组的udf？

Tags：字符串 in self df be pyspark datatype should

1条回答

网友

1楼 · 发布于 2024-05-16 11:16:32

您需要初始化一个StringType实例：

label_udf = udf(my_udf, ArrayType(StringType()))
#                                           ^^ 
df.withColumn('subset', label_udf(df.col1)).show()
+------------+------+
|        col1|subset|
+------------+------+
|     oculunt|[s, n]|
|predistposed|[s, n]|
| incredulous|[s, n]|
+------------+------+

相关问题更多 >

编程相关推荐

热门问题

热门文章