Pyspark dataframe:在列上求和，同时在anoth上分组

In [94]: prova_df.show() order_item_order_id order_item_subtotal 1 299.98 2 199.99 2 250.0 2 129.99 4 49.98 4 299.95 4 150.0 4 199.92 5 299.98 5 299.95 5 99.96 5 299.98

3条回答

网友

1楼 · 编辑于 2024-06-02 09:14:09

您可以使用分区和窗口功能：

df.withColumn(value_field, f.sum("order_item_subtotal") \
  .over(Window.partitionBy("order_item_order_id"))) \
  .show()

网友

2楼 · 编辑于 2024-06-02 09:14:09

使用PySpark 2.7.x解决问题的类似解决方案如下：

df = spark.createDataFrame(
    [(1, 299.98),
    (2, 199.99),
    (2, 250.0),
    (2, 129.99),
    (4, 49.98),
    (4, 299.95),
    (4, 150.0),
    (4, 199.92),
    (5, 299.98),
    (5, 299.95),
    (5, 99.96),
    (5, 299.98)],
    ['order_item_order_id', 'order_item_subtotal'])

df.groupBy('order_item_order_id').sum('order_item_subtotal').show()

从而产生以下输出：

+-------------------+------------------------+
|order_item_order_id|sum(order_item_subtotal)|
+-------------------+------------------------+
|                  5|       999.8700000000001|
|                  1|                  299.98|
|                  2|                  579.98|
|                  4|                  699.85|
+-------------------+------------------------+

网友

3楼 · 编辑于 2024-06-02 09:14:09

Why isn't it showing also the information from the first column?

很可能是因为您使用的是过时的Spark 1.3.x。如果是这种情况，则必须在agg内重复分组列，如下所示：

(df
    .groupBy("order_item_order_id")
    .agg(func.col("order_item_order_id"), func.sum("order_item_subtotal"))
    .show())

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pyspark dataframe:在列上求和，同时在anoth上分组

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >