PySpark：一步计算平均值、标准差和平均值周围的值

from pyspark.sql.window import Window from pyspark.sql.functions import * from pyspark.sql.types import * w1 = Window().partitionBy("Variable") w2 = Window.partitionBy("Variable").orderBy("Time") def stddev_pop_w(col, w): #Built-in stddev doesn't support windowing return sqrt(avg(col * col).over(w) - pow(avg(col).over(w), 2)) def isInRange(value, mean, stddev, radius): try: if (abs(value - mean) < radius * stddev): return 1 else: return 0 except AttributeError: return -1 delta = col("Time").cast("long") - lag("Time", 1).over(w2).cast("long") #f = udf(lambda (value, mean, stddev, radius): abs(value - mean) < radius * stddev, IntegerType()) #f2 = udf(lambda value, mean, stddev: isInRange(value, mean, stddev, 2), IntegerType()) #f3 = udf(lambda value, mean, stddev: isInRange(value, mean, stddev, 3), IntegerType()) df_ = df_all \ .withColumn("mean", mean("Value").over(w1)) \ .withColumn("std_deviation", stddev_pop_w(col("Value"), w1)) \ .withColumn("delta", delta) \ # .withColumn("stddev_2", f2("Value", "mean", "std_deviation")) \ # .withColumn("stddev_3", f3("Value", "mean", "std_deviation")) \ #df2.show(5, False)

df = df_.select("*", \ abs(df_.Value - df_.mean).alias("max_deviation_mean"), \ when(abs(df_.Value - df_.mean) < 2 * df_.std_deviation, 1).otherwise(1).alias("std_dev_mean_2"), \ when(abs(df_.Value - df_.mean) < 3 * df_.std_deviation, 1).otherwise(1).alias("std_dev_mean_3"))

2条回答

网友

1楼 · 编辑于 2024-04-19 14:43:07

这无法工作，因为当您执行

from pyspark.sql.functions import *

您使用pyspark.sql.functions.abs对内置的abs进行阴影处理，它需要一个列而不是本地Python值作为输入。

另外，您创建的UDF不处理NULL条目。

不要使用import *，除非你知道什么是进口的。取而代之的是别名

from pyspark.sql.functions import abs as abs_

或导入模块

from pyspark.sql import functions as sqlf

sqlf.col("x")

一定要检查UDF中的输入，除非有必要，否则最好避免使用UDF。

网友

2楼 · 编辑于 2024-04-19 14:43:07

解决方案是使用DataFrame.aggregateByKey函数，该函数在将每个分区和节点的值合并为一个结果值的计算节点周围的聚合进行无序处理之前聚合每个分区和节点的值。

伪代码如下所示。它的灵感来自this tutorial，但是它使用了StatCounter的两个实例，尽管我们同时总结了两个不同的统计数据：

from pyspark.statcounter import StatCounter
# value[0] is the timestamp and value[1] is the float-value
# we are using two instances of StatCounter to sum-up two different statistics

def mergeValues(s1, v1, s2, v2):
    s1.merge(v1)
    s2.merge(v2)
    return

def combineStats(s1, s2):
    s1[0].mergeStats(s2[0])
    s1[1].mergeStats(s2[1])
    return
(df.aggregateByKey((StatCounter(), StatCounter()),
        (lambda s, values: mergeValues(s[0], values[0], s[1], values[1]),
        (lambda s1, s2: combineStats(s1, s2))
    .mapValues(lambda s: (  s[0].min(), s[0].max(), s[1].max(), s[1].min(), s[1].mean(), s[1].variance(), s[1].stddev,() s[1].count()))
    .collect())

相关问题更多 >

编程相关推荐

热门问题

热门文章