我想比较一下list\u id列上的两个df1 df2数据帧:
df1 =
+---------+
| list_id|
+---------+
|[1, 2, 3]|
|[4, 5, 6]|
|[7, 8, 9]|
+---------+
df2 =
+------------+
| list_id|
+------------+
| [10, 3, 11]|
|[12, 13, 14]|
| [15, 6, 16]|
+------------+
期望的结果是:
df2 =
+-------------------+
| list_id|
+-------------------+
| [1, 2, 3, 10, 11] |
| [4, 5, 6, 15, 16] |
| [7, 8, 9] |
| [12, 13, 14] |
+-------------------+
我的目标是连接那些交集不是空的列表,并保持其他列表与pyspark相同。你知道吗
注意:我的数据帧非常大,使用sparksql连接是不可能的。你知道吗
我想出了一个不需要任何连接操作的代码。 不知何故,这是一个相当混乱,我不知道它会如何表现记忆wize考虑到我爆炸数组多次。你知道吗
相关问题 更多 >
编程相关推荐