我希望通过一个3个月的数据样本来确定列中字符串变量的计数。每天随机抽取样本。我可以按小时对数据进行分组,但我要求对大约10k行的数据保持30分钟间隔(例如0500-0600、0600-0630)的保真度。你知道吗
数据示例:
datetime stringvalues
2018-06-06 17:00 A
2018-06-07 17:30 B
2018-06-07 17:33 A
2018-06-08 19:00 B
2018-06-09 05:27 A
我已尝试将datetime列设置为索引,但我不知道如何将数据分组到除“hour”之外的任何对象上,而且我对字符串值计数没有保真度:
df['datetime'] = pd.to_datetime(df['datetime']
df.index = df['datetime']
df.groupby(df.index.hour).count()
它返回的输出类似于:
datetime stringvalues
datetime
5 0 0
6 2 2
7 5 5
8 1 1
...
在过去的两天里,我对多重索引和重采样进行了一定程度的研究,但一直没有找到类似的问题。预期结果如下所示:
datetime A B
0500 1 2
0530 3 5
0600 4 6
0630 2 0
....
没有直接的方法来对时间组件进行
TimeGrouper
,因此我们分两步来完成:相关问题 更多 >
编程相关推荐