我应该如何处理大型JSON数据集Scikit。学习?

2024-05-16 02:36:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我最近开始自学数据分析和机器学习,很快就进入了我的第一期。在

我将restapi中的数据存储在JSON中。我的数据集是一个文件夹,其中有近350000个文本文件,其中包含Riot API match endpoint(我存储Legends League Of Legends games)返回的JSON,总共有11GB的未压缩文本文件。文件名是匹配项的ID。在

显然,我无法将所有这些数据加载到内存(8GB)中进行分析或处理Scikit。学习. 即使我可以,解析也非常慢(得到soloQ游戏的数量,冠军的平均胜率…)。我被告知要将这些数据存储在SQLite数据库中,但我并没有真正决定该怎么做。SQLite应该可以,因为未来的分析不需要所有的特性,所以我可以很容易地选择。在

最好的方法是什么?我之前应该知道什么?我缺少什么基本的数据分析知识吗?在


Tags: 数据文件夹机器apirestapijsonsqlitematch