2024-04-29 02:49:41 发布
网友
假设我有两个Spark RDD,其值如下
x = [(1, 3), (2, 4)]
以及
y = [(3, 5), (4, 7)]
我想要
z = [(1, 3), (2, 4), (3, 5), (4, 7)]
我怎样才能做到这一点。我知道你可以使用outerJoin和map来实现这一点,但是有没有更直接的方法呢。你知道吗
rdd.union(otherRDD)给出问题中预期的两个RDD的并集
rdd.union(otherRDD)
x.union(y)
您可以只使用+操作符。在列表上下文中,这是一个连接操作。你知道吗
+
>>> x = [(1, 3), (2, 4)] >>> y = [(3, 5), (4, 7)] >>> z = x + y >>> z [(1, 3), (2, 4), (3, 5), (4, 7)]
rdd.union(otherRDD)
给出问题中预期的两个RDD的并集x.union(y)
您可以只使用
+
操作符。在列表上下文中,这是一个连接操作。你知道吗相关问题 更多 >
编程相关推荐