使用Pandas使用过滤器计算值之间的差异

2条回答

网友

1楼 · 编辑于 2024-05-15 05:17:39

如果列Timestamp排序并包含每个月的所有天数，则解决方案：

您可以尝试先通过^{}查找数据组，然后通过Serie和聚合^{}查找{a2}。您得到NaN，因此^{}由0获得，并通过^{}将输出列转换为整数：

#reverse ordering
df = df[::-1]

print (df.Status == 'FAIL').astype(int).cumsum()
5    1
4    1
3    1
2    2
1    2
0    2
Name: Status, dtype: int32

#filter and get ordering of colums
df['Days_until_next_fail'] = df[df.Status=='OK']
                              .groupby((df.Status == 'FAIL').astype(int).cumsum())
                              .cumcount() + 1

#replace NaN by 0, convert values to integer                              
df['Days_until_next_fail'] = df['Days_until_next_fail'].fillna(0).astype(int)
#ordering to original
df.sort_index(inplace=True)
print df
   Timestamp Status  Days_until_next_fail
0 2012-01-01     OK                     2
1 2012-01-02     OK                     1
2 2012-01-03   FAIL                     0
3 2012-01-05     OK                     2
4 2012-01-06     OK                     1
5 2012-01-07   FAIL                     0

更一般的解决方案（所有日期都必须排序）：

^{pr2}$

如果需要将列从timedelta转换为int：

df['fail_days'] = df.groupby((df.Status == 'FAIL').astype(int).cumsum())
                    .apply(lambda x: ((x.iloc[0][0] - x.Timestamp) / np.timedelta64(1, 'D'))
                                        .astype(int))

                    .reset_index(level=0, drop=True)

print df.sort_index()
   Timestamp Status  fail_days
0 2011-12-28     OK          6
1 2012-01-02     OK          1
2 2012-01-03   FAIL          0
3 2012-01-05     OK          2
4 2012-01-06     OK          1
5 2012-01-07   FAIL          0

网友

2楼 · 编辑于 2024-05-15 05:17:39

以下是自上次失败后的天数，而不是下一次失败的天数：

is_fail = (df.Status != 'OK')
cumulative_fails = is_fail.cumsum()
fail_idx, = is_fail.nonzero()
days_since_last_fail = arange(len(is_fail))
days_since_last_fail[fail_idx[0]:] -= fail_idx[cumulative_fails[fail_idx[0]:]-1]

如果您想要正确的版本，那么您可以根据自己的需要进行调整，或者只需在开始和结束处反转原始数组。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Pandas使用过滤器计算值之间的差异

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >