在pysp中创建rdd的rdd

2024-05-16 15:55:55 发布

您现在位置:Python中文网/ 问答频道 /正文

可以在pyspark中创建rdd的rdd吗? 我试过了

rdd1=sc.parallelize([1,2,3])
rdd2=sc.parallelize([4,5,6])
rdd3=sc.parallelize([rdd1,rdd2])

然后出错了


Tags: pysparkscrddparallelizerdd3rdd1rdd2
2条回答

你可以加入2个RDD

rdd1.连接(rdd2)

UNION方法可用于执行此操作

rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize([4, 5, 6])
rdd3 = sc.parallelize([7, 8, 9])

rdd = sc.union([rdd1, rdd2, rdd3])
rdd.collect()

## [1, 2, 3, 4, 5, 6, 7, 8, 9]

作为旁注,现在建议使用DataFrameDatasetAPI

相关问题 更多 >