从时间序列生成滚动平均值，但基于月份进行子选择

import pandas as pd ix = pd.date_range(freq='W-FRI',start="20100101", end='20190301' ) df = pd.DataFrame({"foo": [x for x in range(len(ix))]}, index=ix) #weekly data mth_avg = df.resample("M").mean() #data as a monthly average over time mth_avg['month_hack'] = mth_avg.index.month #average of previous three years' same-month averages df['avg_prev_3_year_same-month'] = "?" #single arbitrary example of my intention df.loc['2019-02-15', "avg_prev_3_year_same-month"]= ( mth_avg[mth_avg.month_hack==2] .loc[:'2019-02-15'] .iloc[-3:] .loc[:,'foo'] .mean() ) df[-5:]

1条回答

网友

1楼 · 发布于 2024-04-24 09:51:43

我认为这实际上是一个不寻常的问题-我知道没有任何现有的功能。制作助手表可以节省计算时间，实际上我使用了两个。我的解决方案使用循环（即列表理解）和时间感知来避免month_hack。否则我认为这是一个好的开始。很高兴看到更优雅的东西

# your code
ix = pd.date_range(freq='W-FRI',start="20100101", end='20190301' )
df  = pd.DataFrame({"foo": [x for x in range(len(ix))]}, index=ix)
mth_avg = df.resample("M").mean()

# use multi-index of month/year with month first
mth_avg.index = [mth_avg.index.month, mth_avg.index.year]
tmp = mth_avg.sort_index().groupby(level=0).rolling(3).foo.mean()
tmp.index = tmp.index.droplevel(0)

# get rolling value from tmp
res = [tmp.xs((i.month, i.year - 1)) for i in df[df.index > '2010-12-31'].index]

# NaNs for 2010
df['avg_prev_3_year_same-month'] = np.NaN
df.loc[df.index > '2010-12-31', 'avg_prev_3_year_same-month'] = res

# output
df.sort_index(ascending=False).head()

            foo     avg_prev_3_year_same-month
2019-03-01  478     375.833333
2019-02-22  477     371.500000
2019-02-15  476     371.500000
2019-02-08  475     371.500000
2019-02-01  474     371.500000

相关问题更多 >

编程相关推荐

热门问题

热门文章