2024-05-16 14:00:12 发布
网友
让我们考虑一对RDD:
x = sc.parallelize([("a", 1), ("b", 1), ("a", 4), ("c", 7)])
是否有更有效的替代方案:
x.map(lambda x: x[1]).reduce(lambda x, y: x+y)
为了找到所有值的和
由于x是一个PairRDD方法,因此可以使用values方法而不是手动提取值:
x
PairRDD
values
x.values().sum()
在RDD API中有一个sum方法
sum
x.map(lambda x: x[1]).sum()
sum(self) source code Add up the elements in this RDD.
sum(self) source code
Add up the elements in this RDD.
sc.parallelize([1.0, 2.0, 3.0]).sum() 6.0
由于
x
是一个PairRDD
方法,因此可以使用values
方法而不是手动提取值:在RDD API中有一个
sum
方法相关问题 更多 >
编程相关推荐