用Spark 1.6 Dataframe按其他字段获取每个组的不同元素

test.json {"name":"Yin", "address":1111111, "date":20151122045510} {"name":"Yin", "address":1111111, "date":20151122045501} {"name":"Yln", "address":1111111, "date":20151122045500} {"name":"Yun", "address":1111112, "date":20151122065832} {"name":"Yan", "address":1111113, "date":20160101003221} {"name":"Yin", "address":1111111, "date":20160703045231} {"name":"Yin", "address":1111114, "date":20150419134543} {"name":"Yen", "address":1111115, "date":20151123174302}

import pyspark.sql.funcions as func from pyspark.sql.types import TimestampType from datetime import datetime df_y = sqlContext.read.json("/user/test.json") udf_dt = func.udf(lambda x: datetime.strptime(x, '%Y%m%d%H%M%S'), TimestampType()) df = df_y.withColumn('datetime', udf_dt(df_y.date)) df_g = df_y.groupby(func.hour(df_y.date)) df_g.count().distinct().show()

2条回答

网友

1楼 · 编辑于 2024-04-18 00:45:49

有一种方法可以使用函数countDistinct对每个组的不同元素进行计数：

import pyspark.sql.functions as func
from pyspark.sql.types import TimestampType
from datetime import datetime

df_y = sqlContext.read.json("/user/test.json")
udf_dt = func.udf(lambda x: datetime.strptime(x, '%Y%m%d%H%M%S'), TimestampType())
df = df_y.withColumn('datetime', udf_dt(df_y.date))
df_g = df_y.groupby(func.hour(df_y.date))    
df_y.groupby(df_y.name).agg(func.countDistinct('address')).show()

+----+--------------+
|name|count(address)|
+----+--------------+
| Yan|             1|
| Yun|             1|
| Yin|             2|
| Yen|             1|
| Yln|             1|
+----+--------------+

这些文档[在这里]（https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/functions.html#countDistinct(org.apache.spark.sql.Column，org.apache.spark.sql.Column…）。

网友

2楼 · 编辑于 2024-04-18 00:45:49

对groupby字段“_c1”的简明直接回答，并从字段“_c2”中计算不同数量的值：

import pyspark.sql.functions as F

dg = df.groupBy("_c1").agg(F.countDistinct("_c2"))

相关问题更多 >

编程相关推荐

热门问题

热门文章