我有这个PySpark数据框
+-----------+--------------------+
|uuid | test_123 |
+-----------+--------------------+
| 1 |[test, test2, test3]|
| 2 |[test4, test, test6]|
| 3 |[test6, test9, t55o]|
我想把列test_123
转换成如下:
+-----------+--------------------+
|uuid | test_123 |
+-----------+--------------------+
| 1 |"test,test2,test3" |
| 2 |"test4,test,test6" |
| 3 |"test6,test9,t55o" |
所以从列表到字符串。
我怎么能用PySpark呢?
虽然您可以使用
UserDefinedFunction
,但它的效率非常低。相反,最好使用concat_ws
函数:您可以创建一个连接数组/list的
udf
,然后将其应用于test列:初始数据帧创建自:
相关问题 更多 >
编程相关推荐