大Pandas：按年度百分位数划分时间序列

date = ['2015-02-03 23:00:00','2015-02-03 23:30:00','2015-02-04 00:00:00','2015-02-04 00:30:00','2015-02-04 01:00:00','2015-02-04 01:30:00','2015-02-04 02:00:00','2015-02-04 02:30:00','2015-02-04 03:00:00','2015-02-04 03:30:00','2015-02-04 04:00:00','2015-02-04 04:30:00','2015-02-04 05:00:00','2015-02-04 05:30:00','2015-02-04 06:00:00','2015-02-04 06:30:00','2015-02-04 07:00:00','2015-02-04 07:30:00','2015-02-04 08:00:00','2015-02-04 08:30:00','2015-02-04 09:00:00','2015-02-04 09:30:00','2015-02-04 10:00:00','2015-02-04 10:30:00','2015-02-04 11:00:00','2015-02-04 11:30:00','2015-02-04 12:00:00','2015-02-04 12:30:00','2015-02-04 13:00:00','2015-02-04 13:30:00','2015-02-04 14:00:00','2015-02-04 14:30:00','2015-02-04 15:00:00','2015-02-04 15:30:00','2015-02-04 16:00:00','2015-02-04 16:30:00','2015-02-04 17:00:00','2015-02-04 17:30:00','2015-02-04 18:00:00','2015-02-04 18:30:00','2015-02-04 19:00:00','2015-02-04 19:30:00','2015-02-04 20:00:00','2015-02-04 20:30:00','2015-02-04 21:00:00','2015-02-04 21:30:00','2015-02-04 22:00:00','2015-02-04 22:30:00','2015-02-04 23:00:00','2015-02-04 23:30:00'] value = [33.24 , 31.71 , 34.39 , 34.49 , 34.67 , 34.46 , 34.59 , 34.83 , 35.78 , 33.03 , 35.49 , 33.79 , 36.12 , 37.09 , 39.54 , 41.19 , 45.99 , 50.23 , 46.72 , 47.47 , 48.46 , 48.38 , 48.40 , 48.13 , 38.35 , 38.19 , 38.12 , 38.05 , 38.06 , 37.83 , 37.49 , 37.41 , 41.84 , 42.26 , 44.09 , 48.85 , 50.07 , 50.94 , 51.09 , 50.60 , 47.39 , 45.57 , 45.03 , 44.98 , 41.32 , 40.37 , 41.12 , 39.33 , 35.38 , 33.44 ] df = pd.DataFrame({'value':value,'index':date}) df.index = pd.to_datetime(df['index'],format='%Y-%m-%d %H:%M') df.drop(['index'],axis=1,inplace=True) print(df) value index 2015-02-03 23:00:00 33.24 2015-02-03 23:30:00 31.71 2015-02-04 00:00:00 34.39 2015-02-04 00:30:00 34.49 2015-02-04 01:00:00 34.67 2015-02-04 01:30:00 34.46

value bin index 2015-02-03 23:00:00 33.24 P80_90 2015-02-03 23:30:00 31.71 <P80 2015-02-04 00:00:00 34.39 P80_90 2015-02-04 00:30:00 34.49 P80_90 2015-02-04 01:00:00 34.67 >P90 2015-02-04 01:30:00 34.46 P80_90

2条回答

网友

1楼 · 编辑于 2024-06-11 21:55:17

您可以给每个组groupby年和apply一个函数。你知道吗

def get_bin(group):
    p80 = group.value.quantile(0.8)
    p90 = group.value.quantile(0.9)

    group['bin'] = pd.cut(
        x=group.value,
        bins=[-np.inf, p80, p90, np.inf],
        right=False,
        labels=['<P80', 'P80_90', '>P90'])
    return group

df.groupby(lambda x: x.year).apply(get_bin)

#                      value     bin
# index
# 2015-02-03 23:00:00  33.24    <P80
# 2015-02-04 07:00:00  45.99    <P80
# 2015-02-04 07:30:00  50.23    >P90
# 2015-02-04 09:00:00  48.46  P80_90
# 2015-02-04 10:00:00  48.40  P80_90

网友

2楼 · 编辑于 2024-06-11 21:55:17

不确定我是否完全理解你的问题，但我会计算百分位数如下：

p80 = df.value.quantile(0.8)
p90= df.value.quantile(0.9)
df['binned'] = pd.cut(x=df.value, bins=[-np.inf, p80, p90, np.inf], right=False, labels=['<P80', 'P80_90', '>P90'])

你的例子只有一年，如果是几年，你可以做同样的事情，但是在groups而不是一个完整的df。有很多方法可以做到这一点，但有一种选择是：

for year in df.index.year.unique():
   mask = df.index.year == year
   df.loc[mask, 'binned'] = pd.cut(x=df.value 
               , bins=[-np.inf, df[mask].value.quantile(0.8), df[mask].value.quantile(0.9), np.inf]
                , right=False, labels=['<P80', 'P80_90', '>P90'])
df.head()

相关问题更多 >

编程相关推荐

热门问题

热门文章