Pypark groupBy具有多个聚合（如Pandas）

from pyspark.sql.functions import avg, variance train1.groupby("CUSTOMER_NUMBER")\ .agg( avg('repatha_trx').alias("repatha_trx_avg"), variance('repatha_trx').alias("repatha_trx_Var") )\ .show(100)

1条回答

网友

1楼 · 发布于 2024-05-13 17:26:14

您可以导入^{}来执行聚合。在

# load function
from pyspark.sql import functions as F

# aggregate data
df_trx_m = train.groupby('Age').agg(
    F.avg(F.col('repatha_trx')).alias('repatha_trx_avg'),
    F.variance(F.col('repatha_trx')).alias('repatha_trx_var')
)

注意，^{}返回总体方差。对于无偏样本方差，还有另一个函数^{}。在

编程相关推荐

java是安卓的子类。所容纳之物ClipData或ClipData。项目
毕加索中的java错误get（）无法应用于（安卓.content.Context）
管道接受来自控制台和管道文本文件的Java输入
Java Windows文件权限
java如何在Selenium中找到此按钮？我尝试了partiallinktext并多次尝试cssSelector
java如何在spring jdbc模板中生成流式sql？
方法中的java全局值变为null
java设备“Mobile Intel（R）4 Series Express芯片组系列”（\\.\DISPLAY1）初始化失败：
java查找单独文件夹中的资源到类文件
java iCal4j添加会议说明

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pypark groupBy具有多个聚合（如Pandas）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >