这是一个软件架构问题,而不是特定的编程问题。所以我希望它放在这里是正确的。你知道吗
目前,我们已经实现了几个Python脚本,它们将大约100GB(类似于键值)的数据加载到berkeleydb。此加载仅在执行其他计算之前进行一次。然后还有其他并行脚本正在从DB读取。你知道吗
我们总是将这个机制旋转一次计算,大约需要1小时(它已经高度优化了)。我们知道像这样的计算可能会有上百万次,所以我们决定使用最有可能的Spark来预计算一切。你知道吗
我想问一下,是否已经存在一些分布式高速内存数据库的可能性,这将取代伯克利数据库?(一次读取所有数据,用超快的查询在几周内执行大量计算)
目前我们正在研究Spark和PySpark,但使用它的内存缓存似乎比berkeleydb慢。你知道吗
有人有什么建议我们可以在这里使用吗?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐