我最近开始自学数据分析和机器学习,很快就进入了我的第一期。在
我将restapi中的数据存储在JSON中。我的数据集是一个文件夹,其中有近350000个文本文件,其中包含Riot API match endpoint(我存储Legends League Of Legends games)返回的JSON,总共有11GB的未压缩文本文件。文件名是匹配项的ID。在
显然,我无法将所有这些数据加载到内存(8GB)中进行分析或处理Scikit。学习. 即使我可以,解析也非常慢(得到soloQ游戏的数量,冠军的平均胜率…)。我被告知要将这些数据存储在SQLite数据库中,但我并没有真正决定该怎么做。SQLite应该可以,因为未来的分析不需要所有的特性,所以我可以很容易地选择。在
最好的方法是什么?我之前应该知道什么?我缺少什么基本的数据分析知识吗?在
目前没有回答
相关问题 更多 >
编程相关推荐