Pandas groupby 计数返回错误计数
我正在尝试从一个简单的文件中绘制每个月事件的汇总,文件格式如下。
4/7/13 1
4/15/13 1
4/16/13 1
4/17/13 1
4/20/13 1
5/2/13 1
5/3/13 1
5/3/13 1
5/6/13 1
5/9/13 1
5/12/13 1
5/16/13 1
5/16/13 1
5/16/13 1
5/26/13 1
5/29/13 1
6/5/13 1
6/7/13 1
6/14/13 1
6/24/13 1
6/25/13 1
6/26/13 1
6/26/13 1
6/28/13 1
6/30/13 1
所以,我想要的汇总结果是这样的:
4/30/13 5
5/31/13 11
6/30/13 8
我尝试了以下代码:
import pandas as pd
import datetime
import numpy as np
grouper = pd.TimeGrouper('1M')
# set index of dataframe to date
a1 = df.set_index('Date')
# create a series object with just the column i want to rollup.
seriesO = a1['Outlier ']
grouped1 = seriesO.groupby(grouper).aggregate(np.size)
grouped1
结果是:
2013-04-30 0
2013-05-31 48
2013-06-30 9
有没有什么想法??
1 个回答
2
在版本0.13.1及之前,这样做是不推荐的(不过在主版本或0.14中可以正常工作)。因为这样做需要确保所有东西都是有序的,但这个要求并没有在任何地方说明。
In [13]: s.groupby(pd.TimeGrouper('1M')).agg(np.size)
Out[13]:
0
2013-04-30 5
2013-05-31 11
2013-06-30 9
Freq: M, dtype: int64
推荐的方法是下面这个(在任何版本中都能用)
In [14]: s.resample('1M',how='count')
Out[14]:
0
2013-04-30 5
2013-05-31 11
2013-06-30 9
Freq: M, dtype: int64