计算大Pandas每天重置的累积日内测量值

2条回答

网友

1楼 · 编辑于 2024-04-26 18:18:16

重置的累计和等于将其应用于组：每个新组在开始时将重置累计和。你知道吗

用good minimal reproducible example来说明答案总是比较容易的：

df = pd.DataFrame([
    ['20191224', '20191224 01:00', 50, 'Merry'], 
    ['20191224', '20191224 02:30', 50, 'Christmas'],
    ['20191225', '20191225 02:00', 50, 'Merry'],
    ['20191225', '20191225 04:25', 50, 'Christmas'],
    ['20191225', '20191225 06:50', 50, ':)']],
    columns = ['date_str', 'date_time', 'quantity', 'msg'])

确保将“date\u time”列强制转换为实际时间戳（all time formats in documentation）

df['date_time'] = pd.to_datetime(df['date_time'], format = "%Y%m%d %H:%M")

确保您的日期是有序的（很重要，因为您将cumsum）

df = df.sort_values('date_time')

您可以groupby date_str，因为它们代表您的日常组：

df.groupby('date_str').agg({
    'quantity': 'sum',
    'message': lambda x: x.join(' ')
})

            quantity                    msg
date_str        
20191224         100        Merry Christmas
20191225         150     Merry Christmas :)

在您的例子中，您想要的是transformcumsum：

df['daily_cum_quantity'] = df.groupby('date_str')['quantity'].transform('cumsum')

导致：

    date_str    date_time             quantity   msg        cum_quantity
0   20191224    2019-12-24 01:00:00   50         Merry      50
1   20191224    2019-12-24 02:30:00   50         Christmas  100
2   20191225    2019-12-25 02:00:00   50         Merry      50
3   20191225    2019-12-25 04:25:00   50         Christmas  100
4   20191225    2019-12-25 06:50:00   50         :)         150

网友
2楼 · 编辑于 2024-04-26 18:18:16

temp = df.groupby('date')['t'].cumsum().rename('t_cumulative') df = df.merge(temp, on='date_time', how='outer')

相关问题更多 >

编程相关推荐

热门问题

热门文章

计算大Pandas每天重置的累积日内测量值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >