CSV vs JSON vs DB,在内存中加载和检索数据的速度最快且可扩展

2024-06-10 00:28:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个1.5Gb的大数据文件,其中有多个由制表符分隔的字段。 我需要从web界面/ajax查询(比如API)中查找这个文件,可能每秒钟都会有大量ajax请求。所以需要快速反应。 检索此数据的最快选项是什么?是否有经过性能测试的信息、基准测试? 考虑到以选项卡分隔的CSV文件是一个将加载到内存中的平面文件。但它不能生成索引。
JSON有更多的文本,因为可以创建一个“索引”JSON,对某个字段的条目进行分组


Tags: 文件数据apiweb信息json界面数据文件
1条回答
网友
1楼 · 发布于 2024-06-10 00:28:06

都不是。对于你所说的目的来说,它们都是可怕的。JSON不能部分加载;TSV可以在不将其加载到内存的情况下进行扫描,但可以进行顺序访问。使用适当的数据库

如果由于某种原因,不能使用数据库,可以使用TSV或JSONL(而不是JSON)和一个额外的索引文件(指定每个ID(或另一个可搜索字段)的记录开始的字节位置)对其进行McGyver

相关问题 更多 >