数据帧中并发调用分数之间的差异

data = [['bob13', 1, 'returns','automated',' 2019-08-18 10:12:00'],['bob13', 0, 'returns','automated',' 2019-03-18 10:12:00'],\ ['bob13', 8, 'returns','agent',' 2019-04-18 10:15:00'],['rach2', 2, 'shipping','automated',' 2019-04-19 10:15:00'],\ ['bob13', 0, 'returns','agent',' 2019-05-18 11:12:00'],['rach2', 0, 'shipping','agent',' 2019-04-18 11:15:00'],\ ['bob13', 3, 'returns','agent',' 2019-02-18 10:12:00'],['rach2', 8, 'shipping','agent',' 2019-05-19 10:15:00'],\ ['rach2', 7, 'shipping','automated',' 2019-06-19 10:15:00'],['roy', 4, 'exchange','agent','2019-03-26 17:36:00'],\ ['roy', 5, 'exchange','automated','2019-01-28 09:48:00']] df = pd.DataFrame(data, columns = ['member_id', 'survey_score','call_reason','connection','time_stamp']) df.sort_values(by=['time_stamp']).head(20) member_id survey_score call_reason connection time_stamp 6 bob13 3 returns agent 2019-02-18 10:12:00 1 bob13 0 returns automated 2019-03-18 10:12:00 2 bob13 8 returns agent 2019-04-18 10:15:00 5 rach2 0 shipping agent 2019-04-18 11:15:00 3 rach2 2 shipping automated 2019-04-19 10:15:00 4 bob13 0 returns agent 2019-05-18 11:12:00 7 rach2 8 shipping agent 2019-05-19 10:15:00 8 rach2 7 shipping automated 2019-06-19 10:15:00 0 bob13 1 returns automated 2019-08-18 10:12:00 10 roy 5 exchange automated 2019-01-28 09:48:00 9 roy 4 exchange agent 2019-03-26 17:36:00

member_id call_reason automated agent score differential bob13 returns 0 3 -3 bob13 returns 1 0 1 rach2 shipping 2 0 2 rach2 shipping 7 8 -1

grp = df.query('connection=="automated"').\ groupby(['member_id', 'call_reason']) df['OutId'] = grp.time_stamp.transform(lambda x: x.rank()) df.head(10) grp = df.groupby(['member_id', 'call_reason']) df['Id'] = grp.OutId.transform(lambda x: x.bfill()) df.head(10) agent = df.query('connection=="agent"').\ groupby(['member_id', 'call_reason', 'Id']).survey_score.last() automated = df.query('connection=="automated"').\ groupby(['member_id', 'call_reason', 'Id']).survey_score.last() ddf = pd.concat([automated, agent], axis=1, keys=['automated', 'agent']) ddf['score_differential'] = ddf.automated - ddf.agent

ddf.dropna().head(10) automated agent score_differential member_id call_reason Id rach2 shipping 2.0 7 8.0 -1.0 roy exchange 1.0 5 4.0 1.0

member_id call_reason automated agent score differential bob13 returns 0 3 -3 bob13 returns 1 0 1 rach2 shipping 2 0 2 rach2 shipping 7 8 -1

1条回答

网友

1楼 · 发布于 2024-06-08 14:34:35

您可以通过创建一个函数，然后将该函数应用于groupby中的组来实现这一点。你知道吗

设置初始数据帧：

import pandas as pd

data = [['bob13', 1, 'returns','automated',' 2019-08-18 10:12:00'],['bob13', 0, 'returns','automated',' 2019-03-18 10:12:00'],\
        ['bob13', 8, 'returns','agent',' 2019-04-18 10:15:00'],['rach2', 2, 'shipping','automated',' 2019-04-19 10:15:00'],\
        ['bob13', 0, 'returns','agent',' 2019-05-18 11:12:00'],['rach2', 0, 'shipping','agent',' 2019-04-18 11:15:00'],\
        ['bob13', 3, 'returns','agent',' 2019-02-18 10:12:00'],['rach2', 8, 'shipping','agent',' 2019-05-19 10:15:00'],\
       ['rach2', 7, 'shipping','automated',' 2019-06-19 10:15:00'],['roy', 4, 'exchange','agent','2019-03-26 17:36:00'],\
       ['roy', 5, 'exchange','automated','2019-01-28 09:48:00']]

df = pd.DataFrame(data, columns = ['member_id', 'survey_score','call_reason','connection','time_stamp']) 
df.sort_values(by=['time_stamp']).head(20)
df['time_stamp'] = pd.to_datetime(df['time_stamp'])

df
   member_id  survey_score call_reason connection          time_stamp
0      bob13             1     returns  automated 2019-08-18 10:12:00
1      bob13             0     returns  automated 2019-03-18 10:12:00
2      bob13             8     returns      agent 2019-04-18 10:15:00
3      rach2             2    shipping  automated 2019-04-19 10:15:00
4      bob13             0     returns      agent 2019-05-18 11:12:00
5      rach2             0    shipping      agent 2019-04-18 11:15:00
6      bob13             3     returns      agent 2019-02-18 10:12:00
7      rach2             8    shipping      agent 2019-05-19 10:15:00
8      rach2             7    shipping  automated 2019-06-19 10:15:00
9        roy             4    exchange      agent 2019-03-26 17:36:00
10       roy             5    exchange  automated 2019-01-28 09:48:00

每当我试图解决这样的问题时，我会分成一组。所以我就隔离了bob13，试着复制我们想要的bob。这让我想到了一系列具体的步骤，然后我把这些步骤放到函数中：

我们按时间对数据帧排序，然后创建名为next\u connection和next\u score的新列。这些将结果从下一个结果中转移出来，这样我们就可以将它放在那一行中。我们删除任何丢失的（组中的最后一个，因为没有下一个），隔离连接为agent且下一个连接为automated的任何行。我们重命名列以匹配您的输出，并计算分数差。你知道吗

def function_(df):
    df = df.sort_values('time_stamp')
    df['next_connection'] = df.connection.shift(-1)
    df['next_score'] = df.survey_score.shift(-1)
    df = df.dropna()
    df = df[(df.connection == 'agent') & (df.next_connection == 'automated')]
    df = df.rename(columns={'survey_score':'agent', 'next_score':'automated'})
    df['score differential'] = df['automated'] - df['agent']
    return df

现在我们将其应用于由member_id和call_reason分组的数据帧。你知道吗

g = df.groupby(['member_id', 'call_reason']).apply(function_)

g[['member_id','call_reason','automated','agent','score differential']].reset_index(drop=True)

  member_id call_reason  automated  agent  score differential
0     bob13     returns        0.0      3                -3.0
1     bob13     returns        1.0      0                 1.0
2     rach2    shipping        2.0      0                 2.0
3     rach2    shipping        7.0      8                -1.0

相关问题更多 >

编程相关推荐

热门问题

热门文章