Python:pmdarima,autoarima不能处理大数据

2024-04-28 15:02:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据框,大约每15分钟进行80.000次观测。假设季节参数m为96,因为每24小时模式重复一次。 当我在auto_arima算法中插入这些信息时,需要很长时间(几个小时)才能发出以下错误消息:

MemoryError: Unable to allocate 5.50 GiB for an array with shape (99, 99, 75361) and data type float64

我正在使用的代码:

stepwise_fit = auto_arima(df['Hges'], seasonal=True, m=96, stepwise=True, 
                          stationary=True, trace=True)
print(stepwise_fit.summary())

我尝试将其重新采样为每小时值,以将数据量和m因子减少到24,但我的计算机仍然无法计算结果

在处理大数据时,如何使用auto_arima找到权重因子


Tags: 数据算法信息true消息auto参数错误
1条回答
网友
1楼 · 发布于 2024-04-28 15:02:41

我记不起我读这篇文章的确切来源,但auto.arima和pmdarima都没有真正优化到可扩展性,这可能解释了您所面临的问题

但是,关于您的问题,还有一些更重要的事情需要注意:ARIMA以15分钟的间隔提供80K个数据点,无论如何,它可能不是适合您的用例的最佳模型类型:

  • 根据数据的频率和密度,可能存在多个周期/季节性模式,ARIMA只能处理一个季节性成分。因此,至少您应该尝试一个可以处理多个季节性的模型,如STSProphetTBATS in R也可以处理多个季节性,但它可能会遇到与auto.arima相同的问题,因为它在同一个包中)
  • 在80K点和15分钟测量间隔下,我假设您最有可能处理的是传感器或其他计量/监测设备(电力负荷、网络流量等)输出的“物理”时间序列。这些类型的时间序列通常是LSTM或其他基于深度学习的模型(而不是ARIMA)的非常好的用例

相关问题 更多 >