我使用TCP套接字将数据发送到spark streaming(Python)。在
使用windowLength=4秒和slideInterval=2秒的窗口化流式处理
我的RDD在一个窗口部分如下所示:
[1,2,3,4]
[2,2,2,2]
[5,6,7,8]
[1,2,1,1]
[8,7,6,5]
如何找到“对应”值的平均值、中位数、最大值、标准偏差、IQR。
平均值=[(1+2+5+1+8)/5,(2,2,6,2,7)/5,(3+2+7+1+6)/5,(4+2+8+1+5)/5]
到目前为止,我的代码是:
^{pr2}$平均值的输出为[1.0,0.75,4.0,2.25],这显然是错误的。我理解,reduce(lambda x,y:…),它一次取两行,取平均值。但是,如果我需要对RDD-within-window中所有对应元素的平均值,那么应该采用什么方法呢。在
我是新来的火花流,请指导。在
目前没有回答
相关问题 更多 >
编程相关推荐