我将对字符串数据进行机器学习培训,但由于内存限制,我无法一次加载所有字符串,因此我正在查找加载时间最快的数据存储
我不关心RAM或磁盘空间的使用,我只需要尽快加载
数据格式:
我的数据是4列中的数百万行。Pandas似乎是最明显的选择,但我也见过其他人创建dictionary对象并像这样向其添加行
https://github.com/nlpyang/PreSumm/blob/master/src/prepro/data_builder.py#L320
然后使用pickle序列化格式保存该字典。 https://github.com/nlpyang/PreSumm/blob/master/src/prepro/data_builder.py#L326
我发现了一篇关于熊猫的博文
https://towardsdatascience.com/the-best-format-to-save-pandas-data-414dca023e0d
看起来拼花地板的字符串加载时间最短,但我不确定这是否适用于Python
目前没有回答
相关问题 更多 >
编程相关推荐