我有这样一个spark数据帧:
id | Operation | Value
-----------------------------------------------------------
1 | [Date_Min, Date_Max, Device] | [148590, 148590, iphone]
2 | [Date_Min, Date_Max, Review] | [148590, 148590, Good]
3 | [Date_Min, Date_Max, Review, Device] | [148590, 148590, Bad,samsung]
我期望的结果是:
^{pr2}$我用的是spark2.1.0和pyspark。我尝试了这个solution ,但它只适用于一个列。在
谢谢
下面是上面的一个示例数据帧。我用这个solution来解决你的问题。在
在这里,您可以定义
^{pr2}$udf
来压缩每行的两个列表。在最后,可以将两个列压缩在一起,然后分解该列。在
输出
如果使用DataFrame,请尝试这:在
相关问题 更多 >
编程相关推荐