快速有序查询的数据存储方法

2024-03-28 20:42:32 发布

您现在位置:Python中文网/ 问答频道 /正文

我是一个精通计算机科学的深度学习者,对金融有点陌生。我目前正试图从雅虎那里获取505只SPX股票的10分钟数据。总的来说,我每天将得到大约20000行浮点数据。当然,数据是新的石油,因此,如果我不构建正确的流程,使用如此大量的数据,这将很快变得超级难以管理。由于这是我第一次从头开始构建数据集,我完全不知道我是否做得对,是否在寻求建议或解决方案

我将处理、存储和查询数据的方法如下:

  1. 获取当天的20k数据
  2. 将20k数据转换为一个csv/npz/pkl,并将其保存在文件夹中,并按日期命名
  3. 在另一个脚本中,读取特定日期之间的所有csv/npz/pkl
  4. 编译所需的代码
  5. 另存为单独的csv/npz/pkl

这个过程中的主要杀手是每天有这么多文件的查询系统

有人建议我使用SQL或其他大型数据库语言,但我不确定为什么它会像这种方法一样或更有效。如果有人也能分享他们构建大型数据库的方法,或者分享一些关于良好实践的资源,那就太好了

编辑:下面是每日数据中csv的一个条目。它由制表符分隔:

NCLH    Sat Jun  6 14:44:29 2020    22.43   23.37   1000    23.43   800 109665301