基于groupby添加列

import pandas as pd data_a = { 'id': [3, 2, 1, 0] ,'group':['test','test','control','control'] ,'original_event_date': ['2018-01-02', '2018-02-01', '2018-03-20', '2018-01-01'] ,'baseline':['100', '20', '1000', '5'] } df_a = pd.DataFrame.from_dict(data_a) data_b = { 'id': [3,3,3,3, 1, 0,0] ,'subsequent_event_date': ['2018-02-02','2018-03-02','2018-04-02', '2018-01-15','2018-03-13', '2018-03-20', '2018-04-01'] ,'subsequent_events':['3','5','7','2','20', '10', '5'] } df_b = pd.DataFrame.from_dict(data_b) #assign original event month to each record [id] df_a['origination'] = pd.to_datetime(df_a['original_event_date']).dt.strftime('%Y-%m') #sum subsequent events by record [id] df_sum_b = df_b.groupby(by=("id"))["subsequent_events"].sum() #join the two to get delta_month df_a_b = pd.concat([df_a, df_b], axis=1, sort=False) df_delta = pd.merge(df_a,df_b,how='left',on='id') df_delta['delta_month'] = (pd.to_datetime(df_delta['subsequent_event_date']).dt.year - pd.to_datetime(df_delta['original_event_date']).dt.year) * 12 \ + (pd.to_datetime(df_delta['subsequent_event_date']).dt.month - pd.to_datetime(df_delta['original_event_date']).dt.month) df_delta = df_delta.drop(columns=['original_event_date','subsequent_event_date']).fillna(0)

1条回答

网友

1楼 · 发布于 2024-04-20 16:36:26

我会尽可能多地添加到未分组的帧中（个人偏好），因此使用transform很好。你知道吗

the original event values where no subsequent events took place are lost

可以通过fillna来解决。因为它看起来像是要对subsequent_events进行数值求和，所以我们不妨从一开始就将其转换为整数（或浮点或…）。你知道吗

df_delta['subsequent_events'] = df_delta['subsequent_events'].fillna('0').astype(int)
df_delta['sum_events_in_month'] = df_delta.groupby(['group','origination','delta_month'])['subsequent_events'].transform('sum').fillna(0)
df_delta['delta_month'].fillna(0, inplace=True)
df_sum_b = df_delta.groupby(['group','origination','delta_month'])[['baseline', 'sum_events_in_month']].apply(lambda x: x.astype(int).sum())

df_sum_b['pct'] = df_sum_b['sum_events_in_month']/df_sum_b['baseline']

（编辑：建议的编辑确实指出了一个缺陷，尽管我认为解决方案不起作用；而不是.astype(int).fillna(0)，因为缺少的值不能是整数强制转换，所以会中断，我将顺序改为.fillna('0').astype(int)。根据评论，我添加了更多的fillna似乎可以达到目的。）

相关问题更多 >

编程相关推荐

热门问题

热门文章