火花流还原窗口,需要平均值、中值、最大值、标准值、IQR

2024-04-25 12:46:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用TCP套接字将数据发送到spark streaming(Python)。在

使用windowLength=4秒和slideInterval=2秒的窗口化流式处理
我的RDD在一个窗口部分如下所示:

[1,2,3,4]    
[2,2,2,2]    
[5,6,7,8]    
[1,2,1,1]    
[8,7,6,5]   

如何找到“对应”值的平均值、中位数、最大值、标准偏差、IQR。
平均值=[(1+2+5+1+8)/5,(2,2,6,2,7)/5,(3+2+7+1+6)/5,(4+2+8+1+5)/5]

到目前为止,我的代码是:

^{pr2}$

平均值的输出为[1.0,0.75,4.0,2.25],这显然是错误的。我理解,reduce(lambda x,y:…),它一次取两行,取平均值。但是,如果我需要对RDD-within-window中所有对应元素的平均值,那么应该采用什么方法呢。在

  • 有一种方法我可以把总数除以计数。但我想知道有另一种方法。在
  • 另外,如何计算列表中相应元素的不同统计信息。在

我是新来的火花流,请指导。在


Tags: 数据方法元素流式sparktcp平均值rdd