Berkeley DB替换为内存分布式DB,可能用于Sp

2024-03-28 10:46:13 发布

您现在位置:Python中文网/ 问答频道 /正文

这是一个软件架构问题,而不是特定的编程问题。所以我希望它放在这里是正确的。你知道吗

目前,我们已经实现了几个Python脚本,它们将大约100GB(类似于键值)的数据加载到berkeleydb。此加载仅在执行其他计算之前进行一次。然后还有其他并行脚本正在从DB读取。你知道吗

我们总是将这个机制旋转一次计算,大约需要1小时(它已经高度优化了)。我们知道像这样的计算可能会有上百万次,所以我们决定使用最有可能的Spark来预计算一切。你知道吗

我想问一下,是否已经存在一些分布式高速内存数据库的可能性,这将取代伯克利数据库?(一次读取所有数据,用超快的查询在几周内执行大量计算)

目前我们正在研究Spark和PySpark,但使用它的内存缓存似乎比berkeleydb慢。你知道吗

有人有什么建议我们可以在这里使用吗?你知道吗


Tags: 数据内存脚本数据库db高度编程分布式