如何按列Id对数据帧进行分组，然后在组内标记2天间隔？

|visitorId | datetime |searchId | |:---------|:---------:|--------:| | 123 | 2020-06-06| abd | | 123 | 2020-06-07| cde | | 123 | 2020-06-08| dgh | | 123 | 2020-06-18| sdw | | 123 | 2020-06-21| hkl | | 345 | 2020-06-21| dsu | | 456 | 2020-06-06| sdh | | 456 | 2020-06-20| ckb | | 456 | 2020-05-24| etw |

|visitorId | datetime | searchId | group label | |:---------|:---------:|:--------:|------------:| | 123 | 2020-06-06| abd | 0 | | 123 | 2020-06-07| cde | 0 | | 123 | 2020-06-08| dgh | 0 | | 123 | 2020-06-18| sdw | 1 | | 123 | 2020-06-21| hkl | 2 | | 345 | 2020-06-21| dsu | 0 | | 456 | 2020-06-19| sdh | 0 | | 456 | 2020-06-20| ckb | 0 | | 456 | 2020-07-24| etw | 1 | | 456 | 2020-08-09| ekn | 2 |

2条回答

网友

1楼 · 编辑于 2024-05-15 05:16:39

首先对数据帧进行排序，然后我们可以使用groupby.diff()

#df['datetime'] = pd.to_datetime(df['datetime'])
df = df.sort_values(['visitorId','datetime'])
df['group label'] = df.groupby('visitorId')['datetime'].diff().ge('2 days').astype(int)


print(df)


    visitorId   datetime   searchId  group label
1    123      2020-06-06    abd                0
2    123      2020-06-07    cde                0
3    123      2020-06-09    dgh                1
4    345      2020-06-05    dsu                0
5    345      2020-06-06    sdf                0
6    456      2020-06-06    sdh                0
7    456      2020-06-24    etw                1

编辑。

s = df.groupby('visitorId')['datetime'].diff().ge('2 days').astype(int)

df['group_label'] = np.where(
    s.gt(0),
    df.groupby(['visitorId',s]).cumcount() + 1,
    0
)

    visitorId   datetime    searchId    group label  group_label
1         123 2020-06-06     abd           0                   0
2         123 2020-06-07     cde           0                   0
3         123 2020-06-08     dgh           0                   0
4         123 2020-06-18     sdw           1                   1
5         123 2020-06-21     hkl           2                   2
6         345 2020-06-21     dsu           0                   0
7         456 2020-06-19     sdh           0                   0
8         456 2020-06-20     ckb           0                   0
9         456 2020-07-24     etw           1                   1
10        456 2020-08-09     ekn           2                   2

网友

2楼 · 编辑于 2024-05-15 05:16:39

使用^{}+^{}，如下所示：

准备：

#Convert your column 'datetime' to datetime format if not already in that format
df['datetime'] = pd.to_datetime(df['datetime'])

# sort columns
df = df.sort_values(['visitorId','datetime'])

主要逻辑：

df['group label'] = df['datetime'].diff().ge('2 days').groupby(df['visitorId']).cumsum()

结果：

print(df)

   visitorId   datetime searchId  group label
0        123 2020-06-06      abd            0
1        123 2020-06-07      cde            0
2        123 2020-06-08      dgh            0
3        123 2020-06-18      sdw            1
4        123 2020-06-21      hkl            2
5        345 2020-06-21      dsu            0
6        456 2020-06-19      sdh            0
7        456 2020-06-20      ckb            0
8        456 2020-07-24      etw            1
9        456 2020-08-09      ekn            2

编辑。

相关问题更多 >

编程相关推荐

热门问题

热门文章