具有多列的命名聚合

from datetime import datetime def process_difftime(x, y, start, final): t1 = [] t2 = [] for i in x.index: if x[i] == start: t1.append(y[i]) elif x[i] == final: t2.append(y[i]) res = round((max(t2) - max(t1)).total_seconds()/3600, 2) return res List0 = pd.Series(['A10000','A10000','A10001','A10001'], index=[2,3,4,5]) List1 = pd.Series(['A_Create','A_Accepted','A_Create','A_Accepted'], index=[2,3,4,5]) List2 = pd.Series(['2016-08-03 15:57:21','2016-08-03 16:57:21','2016-08-03 15:57:21','2016-08-03 19:57:21'], index=[2,3,4,5]) List2 = pd.Series([datetime.strptime(x,'%Y-%m-%d %H:%M:%S') for x in List2], index=[2,3,4,5]) df = pd.DataFrame({ 'code':List0, 'instance':List1, 'timestamp':List2 }) df.groupby(['code']) \ .agg( a_concept_difftime = (['instance','timestamp'], lambda x,y: process_difftime(x,y,'A_Create','A_Accepted')) )

1条回答

网友

1楼 · 发布于 2024-05-16 07:35:22

经过几个小时的寻找解决方案，我发现这个贡献满足了我的问题

df.groupby('code') \
  .apply(lambda x: pd.Series({
      'a_accepted_time':process_difftime(x['instance'], x['timestamp'], 'A_Create', 'A_Concept')
  }))

我还发现元组命名的聚合不能处理多个列，如本文https://github.com/pandas-dev/pandas/issues/29268中所述

感谢@r2evans的贡献https://stackoverflow.com/a/53096340/12514619

相关问题更多 >

编程相关推荐

热门问题

热门文章