pyspark将两个rdd合并到一起

2条回答

网友

1楼 · 编辑于 2024-06-02 04:31:54

我用以下方法解决了这个问题：

rdd2.union(rdd1).reduceByKey(lambda x,y : x+y)

以下这些对我都不起作用：

(rdd1 union rdd2).reduceByKey(_ ++ _)

或者

rdd1.join(rdd2).map(case (k, (ls, rs)) => (k, ls ++ rs))

祝大家好运。

网友

2楼 · 编辑于 2024-06-02 04:31:54

data1 = [(u'1', [u'0']), (u'3', [u'1']), (u'2', [u'0']), (u'4', [u'1'])]
data2 = [(u'1', [u'3', u'4']), (u'0', [u'1', u'2'])]

distData1 = sc.parallelize(data1)
distData2 = sc.parallelize(data2)
distData3 = distData1.leftOuterJoin(distData2)
distData4 = distData3.map(lambda rec : ( rec[0], rec[1][0] + [ ] if rec[1][1] is None else rec[1][1])

编程相关推荐

使用JDBC的java参数化查询
java如何使用imap文件夹的UIDVality和HIGHESTMODSEQ同步电子邮件
java GWT+Eclipse+外部JAR文件
java在膨胀的布局上创建onClick事件
java JTree显示驱动器根本不显示
接收java。sql。SQLException:调用数据库函数时出现无效列索引错误
cassandra使用Datastax Java驱动程序进行数据块写入
java应用程序在drools工作台上触发规则
java将Windows键重新指定给键盘快捷键
java整数划分为和和和积

相关问题更多 >

编程相关推荐

热门问题

热门文章

pyspark将两个rdd合并到一起

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >