当每一行只包含一个Spar时,平均一个大型pyspark数据帧的所有行

2024-06-07 22:49:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个有1500万行和一列的pyspark数据框架。 每行包含一个稀疏向量(Vectors.sparse来自pyspark.ml.linalgx(向量大小为5000)

我想得到一个稠密向量,包含每行中所有稀疏向量的平均值

我尝试了以下方法:

from pyspark.ml.stat import Summarizer
result = df.select(Summarizer.mean(df.x)).show(truncate=False)

但这需要几个小时

如果每一行只包含一个稀疏向量,是否有一种有效的方法来平均数据帧的所有行


Tags: 数据方法fromimport框架df向量ml

热门问题