我有一个有1500万行和一列的pyspark数据框架。
每行包含一个稀疏向量(Vectors.sparse
来自pyspark.ml.linalg
)x
(向量大小为5000)
我想得到一个稠密向量,包含每行中所有稀疏向量的平均值
我尝试了以下方法:
from pyspark.ml.stat import Summarizer
result = df.select(Summarizer.mean(df.x)).show(truncate=False)
但这需要几个小时
如果每一行只包含一个稀疏向量,是否有一种有效的方法来平均数据帧的所有行
Tags:
目前没有回答
相关问题 更多 >
编程相关推荐