熊猫在时间滚动窗口中寻找最大值

2条回答

网友

1楼 · 编辑于 2024-05-15 13:43:30

这里有一个重新采样/滚动的方法。使用pandas版本0.18.0和python3.5时，我收到一个奇怪的警告。我不认为这是一个问题，但不知道它为什么会产生。在

这假设索引是“timestamp”，如果不是，请在下面的前面加上df = df.set_index('timestamp')：

>>> df2 = df.resample('30min').sort_index(ascending=False).fillna(np.nan)
>>> df2 = df2.rolling(48,min_periods=1).max()
>>> df.join(df2,rsuffix='2')

                     Y   Y2
timestamp                  
2016-03-29 12:00:00  1  3.0
2016-03-29 13:00:00  2  4.0
2016-03-30 11:00:00  3  4.0
2016-03-30 12:30:00  4  4.0
2016-03-30 13:30:00  3  3.0
2016-03-30 14:00:00  2  2.0

在这个小小的数据帧上，它的速度似乎是它的两倍，但是你必须在一个更大的数据帧上测试它，以获得相对速度的合理概念。在

希望这有点自我解释。升序排序是必要的，因为滚动只允许向后或居中的窗口。在

网友

2楼 · 编辑于 2024-05-15 13:43:30

考虑一个运行速度更快的apply()解决方案。函数返回每行中时间条件序列的最大值。在

import pandas as pd
from datetime import timedelta

def daymax(row):         
    ser = df.Y[(df.timestamp > row) &
               (df.timestamp <= row + timedelta(hours=24))]
    return ser.max()

df['MaxY'] = df.timestamp.apply(daymax)

print(df)

#            timestamp  Y  MaxY
#0 2016-03-29 12:00:00  1   3.0
#1 2016-03-29 13:00:00  2   4.0
#2 2016-03-30 11:00:00  3   4.0
#3 2016-03-30 12:30:00  4   3.0
#4 2016-03-30 13:30:00  3   2.0
#5 2016-03-30 14:00:00  2   NaN

相关问题更多 >

编程相关推荐

热门问题

热门文章

熊猫在时间滚动窗口中寻找最大值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >