Apache sp中两个简单rdd的共面性

2024-06-08 05:22:40 发布

男 | 程序猿一只，喜欢编程写python代码。

我使用ApacheSpark，创建了两个简单的rdd，计算它们的平均值，现在我想计算两个rdd值的协方差。但是当我输入如正文所示的指令时，它会产生一个语法错误。我试着调试，但没能成功。我将如何解决这个问题

rddX = sc.parallelize(range(100))
rddY = sc.parallelize(range(100))

meanX = rddX.sum()/rddX.count()
meanY = rddY.sum()/rddY.count()

rddXY = rddX.zip(rddY)

rddXY.take(10)

covXY = rddXY.map(lambda (x,y): (x-meanX)*(y-meanY)).sum()/rddXY.count()

Tags： count 指令 range 平均值 sum sc rdd 协方差

1条回答

网友

1楼 · 发布于 2024-06-08 05:22:40

您可以使用cov函数，如下所示

from pyspark.sql.functions import rand
df = sqlContext.range(0, 10).withColumn('rand1', rand(seed=10)).withColumn('rand2', rand(seed=27))

df.stat.cov('rand1', 'rand2')
0.009908130446217347

Apache sp中两个简单rdd的共面性

相关问题更多 >

编程相关推荐

热门问题

热门文章

Apache sp中两个简单rdd的共面性

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >