我有一个数据框,如下所示:
+-----------+------------+
|parsed_date| count|
+-----------+------------+
| 2017-12-16| 2|
| 2017-12-16| 2|
| 2017-12-17| 2|
| 2017-12-17| 2|
| 2017-12-18| 1|
| 2017-12-19| 4|
| 2017-12-19| 4|
| 2017-12-19| 4|
| 2017-12-19| 4|
| 2017-12-20| 1|
+-----------+------------+
我想计算整个“count”列的中位数,并将结果添加到新列中
我试过:
median = df.approxQuantile('count',[0.5],0.1).alias('count_median')
但我当然做错了,因为它会产生以下错误:
AttributeError: 'list' object has no attribute 'alias'
请帮忙
您需要添加一个带有
withColumn
的列,因为approxQuantile
返回的是浮点列表,而不是Spark列您还可以在Spark SQL中使用^{} /^{} 函数:
相关问题 更多 >
编程相关推荐