Spark DataFrame按降序分组和排序（pyspark）

3条回答

网友

1楼 · 编辑于 2024-04-25 20:39:17

使用orderBy：

group_by_dataframe.count().filter("`count` >= 10").orderBy('count', ascending=False)

网友

2楼 · 编辑于 2024-04-25 20:39:17

到目前为止，最方便的方法是：

df.orderBy(df.column_name.desc()))

不需要特殊导入或记住如何拼写ascending?

网友

3楼 · 编辑于 2024-04-25 20:39:17

在PySpark 1.3sort中，方法不接受升序参数。您可以改用desc方法：

from pyspark.sql.functions import col

(group_by_dataframe
    .count()
    .filter("`count` >= 10")
    .sort(col("count").desc()))

或desc函数：

from pyspark.sql.functions import desc

(group_by_dataframe
    .count()
    .filter("`count` >= 10")
    .sort(desc("count"))

这两种方法都可以在Spark>；=1.3（包括Spark 2.x）时使用。