打印pyspark dataframe列中的所有类别 - 问答 - Python中文网

打印pyspark dataframe列中的所有类别

2024-05-15 17:24:44 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个很大的数据框，其中一个名为location的列只包含少数城市，例如：["New York", "London", "Paris", "Berlin"...]。在

例如，我想知道的是，在这样一个列中，我想知道的是，所有的值都是不一样的。既然.describe('location')方法没有帮助，我该怎么做呢？在

Tags：数据方法 new location london paris york berlin

3条回答

网友

1楼 · 编辑于 2024-05-15 17:24:44

describe方法用于基本的预定义统计信息，如count、mean、std、min、max等。但是，为了找到任何列的不同值，可以使用distinct()方法。在

希望这有帮助。在

谨致问候

尼拉吉

网友

2楼 · 编辑于 2024-05-15 17:24:44

我发现了：

df.groupBy("location").count().show()

网友

3楼 · 编辑于 2024-05-15 17:24:44

这样您就不能打印列location中的不同值

from pyspark.sql import functions as F
df.select(F.col('location')).distinct()

相关问题更多 >

编程相关推荐

热门问题

热门文章