使用Pandas使用过滤器计算值之间的差异

2024-03-28 19:46:13 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据帧,每行都包含有关事件的信息以及事件是否成功。我想计算非成功事件之间的增量,我知道如何计算字段之间的差异,但不知道在使用过滤器时。在

我的数据帧具有以下结构:

      Timestamp     Status          
   0 2012-01-01     OK 
   1 2012-01-02     OK 
   2 2012-01-03     FAIL
   3 2012-01-05     OK 
   4 2012-01-06     OK 
   5 2012-01-07     FAIL

我要计算每行的时间,直到下一行失败,所以如下所示:

^{pr2}$

我试过了:

df['days_until_next_failure'] = df.Timestamp - df[(df.Status == '1')].Timestamp(+1)

但是这会返回NaT,我在文档中找不到任何东西来应用过滤和使用shift。一种选择是从末尾开始迭代数据帧,但这似乎有点低效。在


Tags: 数据信息过滤器dfstatus时间事件ok
2条回答

如果列Timestamp排序并包含每个月的所有天数,则解决方案:

您可以尝试先通过^{}查找数据组,然后通过Serie和聚合^{}查找{a2}。您得到NaN,因此^{}0获得,并通过^{}将输出列转换为整数:

#reverse ordering
df = df[::-1]

print (df.Status == 'FAIL').astype(int).cumsum()
5    1
4    1
3    1
2    2
1    2
0    2
Name: Status, dtype: int32

#filter and get ordering of colums
df['Days_until_next_fail'] = df[df.Status=='OK']
                              .groupby((df.Status == 'FAIL').astype(int).cumsum())
                              .cumcount() + 1

#replace NaN by 0, convert values to integer                              
df['Days_until_next_fail'] = df['Days_until_next_fail'].fillna(0).astype(int)
#ordering to original
df.sort_index(inplace=True)
print df
   Timestamp Status  Days_until_next_fail
0 2012-01-01     OK                     2
1 2012-01-02     OK                     1
2 2012-01-03   FAIL                     0
3 2012-01-05     OK                     2
4 2012-01-06     OK                     1
5 2012-01-07   FAIL                     0

更一般的解决方案(所有日期都必须排序):

^{pr2}$

如果需要将列从timedelta转换为int

df['fail_days'] = df.groupby((df.Status == 'FAIL').astype(int).cumsum())
                    .apply(lambda x: ((x.iloc[0][0] - x.Timestamp) / np.timedelta64(1, 'D'))
                                        .astype(int))

                    .reset_index(level=0, drop=True)

print df.sort_index()
   Timestamp Status  fail_days
0 2011-12-28     OK          6
1 2012-01-02     OK          1
2 2012-01-03   FAIL          0
3 2012-01-05     OK          2
4 2012-01-06     OK          1
5 2012-01-07   FAIL          0

以下是自上次失败后的天数,而不是下一次失败的天数:

is_fail = (df.Status != 'OK')
cumulative_fails = is_fail.cumsum()
fail_idx, = is_fail.nonzero()
days_since_last_fail = arange(len(is_fail))
days_since_last_fail[fail_idx[0]:] -= fail_idx[cumulative_fails[fail_idx[0]:]-1]

如果您想要正确的版本,那么您可以根据自己的需要进行调整,或者只需在开始和结束处反转原始数组。在

相关问题 更多 >