我有一个rdd,在spark cluster中工作--在rdd中,每个都有格式(a1,a2,a3,a4,a5),a1保留用户ID,a2保留时间戳,我需要计算每个不同用户的会话数。每个会话都是一个等于或大于50分钟的连续时间段,如何使用时间戳计算它?例如(user001,1:12:01,xx,xx,xx),(user001,1:30:12,xx,xx,xx),(user001,2:06:01,xx,xx),。。。你知道吗
我应该排除(user001,1:30:12,xx,xx,xx),对吗?如果user001在1:12:01开始。。。你知道吗
Tags:
目前没有回答
相关问题 更多 >
编程相关推荐