使用重采样缩减包含布尔数据的系列
我有一个很大的时间序列数据框,里面有数字和布尔值(真或假)数据,分别放在不同的列里。我想把数据从每分钟的间隔降采样到每15分钟一次。布尔值列表示系统状态,我在处理这些布尔值的降采样时遇到了困难,想确保能保留任何故障信息。目前,我的降采样方法使用的是 last
,这样就会忽略掉任何不是最后一行的故障信息。
我希望它能做到的是:如果在这15分钟的时间段内有任何一行出现了“故障”,那么在降采样后的时间戳上就显示“故障”,否则就显示“正常”。
我知道解决办法在于 how=''
这个参数,但因为我对numpy和pandas还不太熟悉,所以不知道该用什么。
我的代码:
import pandas as pd
# Reads .csv, combines Date and Time columns into Timestamp, sets Timestamp as index
df = pd.read_csv('data.csv', parse_dates = {'Timestamp' : ['Date', 'Time']}, index_col = 'Timestamp')
# Fixing any incomplete data and interpolating any numerical gaps
index = pd.date_range(freq='1min', start=df.first_valid_index(), end=df.last_valid_index())
df_clean = df.reindex(set(df.index).union(index))
for col in df_clean:
df_clean[col] = df_clean[col].interpolate('time').ix[index]
# Downsampling numerical data
df_avg = df_clean.resample('15min', how='mean')
# Downsampling boolean data separately
df_avg['alarm1']=df_clean['alarm1'].resample('15min', how='last')
# Fix for missing index name
df_avg.index.name = 'Timestamp'
# Adding date and time columns back to dataframe
df_avg.reset_index(level=0, inplace=True)
df_avg['Date'] = df_avg['Timestamp'].apply(lambda x: x.strftime('%Y/%m/%d'))
df_avg['Time'] = df_avg['Timestamp'].apply(lambda x: x.strftime('%H:%M:%S'))
# Write new .csv
df_avg[['Date','Time','A','B','C','alarm1']].to_csv('out.csv', index=False)
1 个回答
文档说明说 how
应该是一个字符串,但实际上它也可以是一个可调用的对象。
如果 'alarm1' 列是布尔值(也就是只有真和假),你可以使用 how=any
(或者 how=np.any
)。any
会对每个时间段内的值进行逻辑“或”运算,所以如果这个时间段内有任何一个值为真,那么在下采样后的序列中对应的值也会是为真。
这里有个例子。
首先,设置随机种子,并创建一系列布尔值。
In [101]: np.random.seed(123456)
In [102]: rng = pd.date_range('1/1/2011', periods=25, freq='1min')
In [103]: ts = pd.Series(np.random.rand(len(rng)) > 0.85, index=rng)
In [104]: ts
Out[104]:
2011-01-01 00:00:00 False
2011-01-01 00:01:00 True
2011-01-01 00:02:00 False
2011-01-01 00:03:00 True
2011-01-01 00:04:00 False
2011-01-01 00:05:00 False
2011-01-01 00:06:00 False
2011-01-01 00:07:00 False
2011-01-01 00:08:00 False
2011-01-01 00:09:00 False
2011-01-01 00:10:00 False
2011-01-01 00:11:00 False
2011-01-01 00:12:00 False
2011-01-01 00:13:00 True
2011-01-01 00:14:00 False
2011-01-01 00:15:00 False
2011-01-01 00:16:00 False
2011-01-01 00:17:00 False
2011-01-01 00:18:00 False
2011-01-01 00:19:00 False
2011-01-01 00:20:00 True
2011-01-01 00:21:00 False
2011-01-01 00:22:00 False
2011-01-01 00:23:00 False
2011-01-01 00:24:00 False
Freq: T, dtype: bool
使用 resample
将数据转换为5分钟的频率。使用 how=np.any
对时间段内的值进行逻辑“或”运算。
In [105]: ds = ts.resample('5min', how=np.any)
In [106]: ds
Out[106]:
2011-01-01 00:00:00 True
2011-01-01 00:05:00 False
2011-01-01 00:10:00 True
2011-01-01 00:15:00 False
2011-01-01 00:20:00 True
Freq: 5T, dtype: bool
你也可以对这些值进行求和,这样可以得到每个时间段内的警报数量:
In [107]: ts.resample('5min', how=sum)
Out[107]:
2011-01-01 00:00:00 2
2011-01-01 00:05:00 0
2011-01-01 00:10:00 1
2011-01-01 00:15:00 0
2011-01-01 00:20:00 1
Freq: 5T, dtype: float64
更新:
如果如评论中提到的,alarm1
列包含字符串 'YES'
和 'NO'
,你可以有几种处理方式。例如,你可以简单地将这些值转换为布尔值(比如 tsbool = ts == 'YES'
),然后使用上面的方法。
或者,你可以写一个自定义的聚合函数,比如
def func(faults):
return 'YES' if np.any(faults == 'YES') else 'NO'
并将其作为 resample
的 how
参数。这里有个例子。
首先,创建一个包含字符串 'YES' 和 'NO' 的序列。
In [60]: rng = pd.date_range('1/1/2011', periods=25, freq='1min')
In [61]: yn = np.array(['NO', 'YES'])
In [62]: ts = pd.Series(yn[(np.random.rand(len(rng)) > 0.85).astype(int)], index=rng)
In [63]: ts
Out[63]:
2011-01-01 00:00:00 NO
2011-01-01 00:01:00 NO
2011-01-01 00:02:00 NO
2011-01-01 00:03:00 NO
2011-01-01 00:04:00 YES
2011-01-01 00:05:00 YES
2011-01-01 00:06:00 NO
2011-01-01 00:07:00 YES
2011-01-01 00:08:00 NO
2011-01-01 00:09:00 NO
2011-01-01 00:10:00 NO
2011-01-01 00:11:00 NO
2011-01-01 00:12:00 NO
2011-01-01 00:13:00 NO
2011-01-01 00:14:00 NO
2011-01-01 00:15:00 NO
2011-01-01 00:16:00 YES
2011-01-01 00:17:00 NO
2011-01-01 00:18:00 NO
2011-01-01 00:19:00 NO
2011-01-01 00:20:00 NO
2011-01-01 00:21:00 NO
2011-01-01 00:22:00 NO
2011-01-01 00:23:00 NO
2011-01-01 00:24:00 NO
Freq: T, dtype: object
定义一个函数,将一组 'YES' 和 'NO' 字符串简化为一个字符串。
In [64]: def func(alarms):
....: return 'YES' if np.any(alarms == 'YES') else 'NO'
....:
使用这个函数来对 ts
进行重采样。
In [65]: ds = ts.resample('5min', how=func)
In [66]: ds
Out[66]:
2011-01-01 00:00:00 YES
2011-01-01 00:05:00 YES
2011-01-01 00:10:00 NO
2011-01-01 00:15:00 YES
2011-01-01 00:20:00 NO
Freq: 5T, dtype: object