PySpark求和嵌套列表

from pyspark.sql.types import ArrayType, IntegerType from pyspark.sql import functions as F df.agg(F.udf(lambda x: list(np.sum(x, axis=0).astype('int')), ArrayType(IntegerType()))(F.collect_list(df.hist))).show(10, False)

1条回答

网友

1楼 · 发布于 2024-04-17 21:47:48

我想如果你只需要一个向量，它返回行和，那就简单一点。你知道吗

import pandas as pd
import pyspark.sql.functions as F

df = pd.DataFrame({'hist': [[1, 2, 3], [0, 1, 0], [1, 0, 0]]})
df = spark.createDataFrame(df)
import pyspark.sql.functions as F
sumOfRows = df.agg(F.array(*[F.sum(F.col("hist")[i]) for i in range(n+1)]).alias("sum"))
sumOfRows.show()

输出：

+    -+
|      sum|
+    -+
|[2, 3, 3]|
+    -+

编程相关推荐

java注释属性GetMapping的值。products必须是一个常量表达式
安卓致命异常：PID:30982 java。lang.RuntimeException：在实际手机中测试应用程序时无法启动activity ComponentInfo
SpringJDBC中可序列化的java隔离级别
类文件中的java方法声明
java在查找大于12的数字的阶乘时得到错误的输出
java如何在TextView 3轴加速度计上显示
java我不确定如何记录鼠标在某个区域被点击的次数
java Heroku创建新的
SpringWebservices的java快速启动工具？
java NetBeans的HintController和EventQueue

相关问题更多 >

编程相关推荐

热门问题

热门文章

PySpark求和嵌套列表

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >