按列化/表格化字符串的最短加载时间提供最佳数据存储

2024-05-23 20:05:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我将对字符串数据进行机器学习培训,但由于内存限制,我无法一次加载所有字符串,因此我正在查找加载时间最快的数据存储

我不关心RAM或磁盘空间的使用,我只需要尽快加载

数据格式:

我的数据是4列中的数百万行。Pandas似乎是最明显的选择,但我也见过其他人创建dictionary对象并像这样向其添加行

https://github.com/nlpyang/PreSumm/blob/master/src/prepro/data_builder.py#L320

然后使用pickle序列化格式保存该字典。 https://github.com/nlpyang/PreSumm/blob/master/src/prepro/data_builder.py#L326

到目前为止我发现了什么

我发现了一篇关于熊猫的博文

https://towardsdatascience.com/the-best-format-to-save-pandas-data-414dca023e0d

看起来拼花地板的字符串加载时间最短,但我不确定这是否适用于Python


Tags: 数据字符串pyhttpssrcgithubmastercom