2024-05-16 15:55:55 发布
网友
可以在pyspark中创建rdd的rdd吗? 我试过了
rdd1=sc.parallelize([1,2,3]) rdd2=sc.parallelize([4,5,6]) rdd3=sc.parallelize([rdd1,rdd2])
然后出错了
你可以加入2个RDD
rdd1.连接(rdd2)
UNION方法可用于执行此操作
UNION
rdd1 = sc.parallelize([1, 2, 3]) rdd2 = sc.parallelize([4, 5, 6]) rdd3 = sc.parallelize([7, 8, 9]) rdd = sc.union([rdd1, rdd2, rdd3]) rdd.collect() ## [1, 2, 3, 4, 5, 6, 7, 8, 9]
作为旁注,现在建议使用DataFrame或DatasetAPI
DataFrame
Dataset
你可以加入2个RDD
rdd1.连接(rdd2)
UNION
方法可用于执行此操作作为旁注,现在建议使用
DataFrame
或Dataset
API相关问题 更多 >
编程相关推荐