当每一行只包含一个Spar时，平均一个大型pyspark数据帧的所有行

2024-06-07 22:49:24 发布

您现在位置：Python中文网/ 问答频道 /正文

1681

网友

男 | 程序猿一只，喜欢编程写python代码。

我有一个有1500万行和一列的pyspark数据框架。每行包含一个稀疏向量（Vectors.sparse来自pyspark.ml.linalg）x（向量大小为5000）

我想得到一个稠密向量，包含每行中所有稀疏向量的平均值

我尝试了以下方法：

from pyspark.ml.stat import Summarizer
result = df.select(Summarizer.mean(df.x)).show(truncate=False)

但这需要几个小时

如果每一行只包含一个稀疏向量，是否有一种有效的方法来平均数据帧的所有行

Tags：数据方法 from import 框架 df 向量 ml

0条回答

目前没有回答

编程相关推荐

java如何通过不精确的参数类型获取构造函数？
找到java文件，但扫描程序未读取
在本地java服务器中部署google translation api，而不调用web服务。
java无法分析Adb版本（错误的ELF类）
java从模型到Servlet再到JSP选项列表获取信息
如何解决将xml文件转换为java文件时出现的错误？
Linux上从Java访问PC硬件端口
java如何覆盖Spring启动库属性？
java在maven的REST服务下获取JDBC连接
java如何将数组对象传递给构造函数？

热门问题

创建一个python程序，从websi中提取文件
7 个回答
创建一个python程序，告诉我名字和出生年份的人的年龄
7 个回答
创建一个Python程序，它接受一个简短的描述并从给定的集合返回一个解决方案（使用nlp）
2 个回答
创建一个python程序，用户在其中输入一个月，它会告诉您y的下一个月
2 个回答
创建一个python程序，要求用户输入一个偶数奇数
5 个回答
创建一个Python程序来修改名称以digi结尾的目录的文本文件
8 个回答
创建一个python程序来猜测用户的“秘密号码”？
10 个回答
创建一个python算法来训练keras模型来预测一个大的整数序列
9 个回答
创建一个python类，它被视为一个列表，但是有更多的特性？
8 个回答
创建一个Python类，我可以将其序列化为一个嵌套的JSON obj
3 个回答
创建一个python类来查找直线的斜率和长度
5 个回答
创建一个Python网络爬虫来获取谷歌Play商店应用程序的元数据
6 个回答
创建一个Python网页
8 个回答
创建一个python脚本，不断从excel文件中读取数据并进行计算
9 个回答
创建一个python脚本，使用tcpdump计算到达网站的数据包数量？
8 个回答
创建一个Python脚本，可以运行其他SAS程序并更新Excel工作簿。
11 个回答
创建一个python脚本，它将读取csv文件，并使用该输入从web抓取数据finviz.com网站然后将数据导出到csv fi中
10 个回答
创建一个python脚本，用mysql数据库中的结构和数据文件创建一个sql转储
11 个回答
创建一个python脚本，该脚本将对某个键进行文本文件搜索，并将编号复制到新文件中
6 个回答
创建一个Python脚本，该脚本连接到特定端口（SMTP）上的一系列IP
2 个回答

当每一行只包含一个Spar时，平均一个大型pyspark数据帧的所有行

相关问题更多 >

编程相关推荐

热门问题

热门文章

当每一行只包含一个Spar时，平均一个大型pyspark数据帧的所有行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >