计算spark clus中rdd中每个不同用户的会话数

2024-04-25 04:18:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个rdd,在spark cluster中工作--在rdd中,每个都有格式(a1,a2,a3,a4,a5),a1保留用户ID,a2保留时间戳,我需要计算每个不同用户的会话数。每个会话都是一个等于或大于50分钟的连续时间段,如何使用时间戳计算它?例如(user001,1:12:01,xx,xx,xx),(user001,1:30:12,xx,xx,xx),(user001,2:06:01,xx,xx),。。。你知道吗

我应该排除(user001,1:30:12,xx,xx,xx),对吗?如果user001在1:12:01开始。。。你知道吗


Tags: 用户ida2a1格式时间a3spark