Python识别每个ID的数据并将其组合成一个周期（使用开始日期和结束日期），其中一个周期被分割成多行

ID Start Date End Date 200 01/01/2020 03/01/2020 200 04/01/2020 06/01/2020 200 07/01/2020 09/01/2020 200 18/05/2020 20/05/2020 350 24/05/2020 27/05/2020 350 01/06/2020 02/06/2020 372 04/06/2020 07/06/2020 372 08/06/2020 10/06/2020

1条回答

网友

1楼 · 发布于 2024-05-16 05:18:10

熊猫可以愉快地处理日期，但您应该将它们转换为pd.Timestamp格式。然后groupby和agg应该给出预期的结果。可能代码：

# First transform the date columns in datetime format
df[['SD', 'ED']] = df[['Start Date', 'End Date']].transform(
    pd.to_datetime, dayfirst=True)

# then shift the start date by one to detect contiguous rows
df[['ID1', 'SD1']] = df[['ID', 'ED']].shift()

# identify groups of rows to aggregate (same id and contiguous dates)
df['row_id'] = ((df['ID']!=df['ID1'])
                |(df['SD']!=df['SD1']+pd.offsets.Day(1))).cumsum()

# groupby agg is now enough...
result = df.groupby('row_id').agg(**{'ID': ('ID', min),
                'Start Date': ('Start Date', min),
                'End Date': ('End Date', max)}
                                  ).reset_index(drop=True)

正如预期的那样：

    ID  Start Date    End Date
0  200  01/01/2020  09/01/2020
1  200  18/05/2020  20/05/2020
2  350  24/05/2020  27/05/2020
3  350  01/06/2020  02/06/2020
4  372  04/06/2020  10/06/2020

这听起来像是黑魔法，在每一步之后打印数据框，看看会发生什么

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python识别每个ID的数据并将其组合成一个周期（使用开始日期和结束日期），其中一个周期被分割成多行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >