我有这样的数据帧:
STOREID VARIANT_ARTICLE PO_DATE UNITSUM
0 st123 12345 20200427 9.0
1 st123 12345 20200428 3.0
2 st123 12345 20200429 13.0
3 st123 12345 20200430 7.0
4 st123 12345 20200501 16.0
5 st123 12345 20200502 3.0
6 st123 12345 20200503 5.0
7 st123 12345 20200504 10.0
8 st123 12345 20200505 3.0
9 st123 12345 20200506 7.0
10 st123 12345 20200507 29.0
11 st123 12345 20200508 4.0
12 st123 12345 20200509 9.0
13 st123 12345 20200510 8.0
14 st123 12345 20200511 5.0
15 st123 12345 20200513 8.0
16 st123 12345 20200514 2.0
17 st123 12345 20200515 2.0
18 st123 12345 20200516 2.0
我想计算rolling
{avg
列的UNITSUM
。
这里的问题是,我需要计算过去4天(例如)的数据,而不是之前的4条记录,这基本上意味着,对于我的示例中的15th
行,要聚合的日期范围是20200510 - 20200513
。由于20200512
没有条目,我们对3个可用行进行聚合,并且在计算中不包括20200509
(就像滚动函数中的pandas
)
有没有办法做到这一点
编辑:我必须使用dask-dataframe
API实现这一点
dask数据帧具有与熊猫API相同的语法:
相关问题 更多 >
编程相关推荐