在pysp中编写自定义UDAF

2024-05-28 19:09:01 发布

男 | 程序猿一只，喜欢编程写python代码。

我需要编写一个pySpark自定义UDAF，我遇到了这个例子 Applying UDFs on GroupedData in PySpark (with functioning python example)。在类似的行中，如线程的最后一部分所示，我提出了下面的函数

from pyspark.sql.types import *

schema = StructType([
    StructField("key", StringType()),
    StructField("avg_value1", DoubleType()),
    StructField("avg_value2", DoubleType()),
    StructField("sum_avg", DoubleType()),
    StructField("sub_avg", DoubleType()),
    StructField("bf_signature", Binary())
])

@pandas_udf(schema, functionType=PandasUDFType.GROUPED_MAP)
def g(df):
    gr = df['key'].iloc[0]
    x = df.value1.mean()
    y = df.value2.mean()
    w = df.value1.mean() + df.value2.mean()
    z = df.value1.mean() - df.value2.mean()
    bloomfilter = BloomFilter(8, 1)
    bloomfilter.set(df.value1)
    p=bloomfilter
    return pd.DataFrame([[gr]+[x]+[y]+[w]+[z]+[p]])

df3.groupby("key").apply(g).show()

如代码所示，我想创建一个定制的BloomFilter，它将为整个列构建BloomFilter，类似于mean（）函数处理聚合整个列并为每个组生成一个聚合结果。在

如何用python编写这个自定义UDAF？在

Tags： key 函数 df schema mean pyspark avg value1

0条回答

目前没有回答

在pysp中编写自定义UDAF

相关问题更多 >

编程相关推荐

热门问题

热门文章

在pysp中编写自定义UDAF

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >