使用不同类型（array[double]vs double）乘以两个pyspark dataframe列，而不使用breeze

1条回答

网友

1楼 · 发布于 2024-06-16 08:44:00

正在使用Spark 2.4中提供的高阶函数transform：

# get size of vec array
n = df.select(size("vec")).first()[0]

# transform each element of the vec array
transform_expr = "transform(vec, x -> x * weight)"

df.withColumn("weighted_vec", expr(transform_expr)) \
  .groupBy("user").agg(array(*[sum(col("weighted_vec")[i]) for i in range(n)]).alias("wsum"))\
  .show()

给出：

+  +         +
|user|              wsum|
+  +         +
|  u1|   [2.2, 4.4, 6.6]|
|  u2|[10.0, 20.0, 30.0]|
+  +         +

对于Spark<；2.4，使用a表示理解，将每个元素乘以weight列，如下所示：

df.withColumn("weighted_vec", array(*[col("vec")[i] * col("weight") for i in range(n)])) \
  .groupBy("user").agg(array(*[sum(col("weighted_vec")[i]) for i in range(n)]).alias("wsum")) \
  .show()

编程相关推荐

如何从Java调用AmazonAWSAPI？
Java中的渗流
java在dao端使用逻辑不是一个好的实践吗？
java Swing绘制网格。韦尔德结果
java如何设置PlusOneButton对话框的共享选项的默认文本
java如何在firebase存储中管理多个上载/下载？
java Wicket在多个位置显示相同的文本
java使用j2me通过蓝牙从一个手机向另一个手机发送短信
java为什么不让DialogWait框自动关闭？
java Visual Studio代码JDBC访问Derby数据库

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用不同类型（array[double]vs double）乘以两个pyspark dataframe列，而不使用breeze

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >