关于我们的交通我们有一个相当大的数据库。 我们每天有超过1000列火车,我们从不同的来源聚集在一起,无论是分钟还是事件基础上(一列火车到达一个车站,一节车厢或loc组成发生了变化等) 数据库在MSSQL中实际有超过100M行。 结果发现,90%的数据是冗余的,只是时间、车站、列车经过的地点和距离在变化。 插入/更新和相当简单的查询就可以了。 但是,在进行统计查询时(例如特定的列车/车厢/loc在给定的时间段内运行了多少公里),响应时间和查询复杂性变得非常重要(在1-2秒范围内需要响应)
对于这种查询,我可以使用什么样的数据库/存储解决方案? 我们有一个用于报告的python(Flask)前端,因此必须有一个具有python接口的DB解决方案
我考虑过Pytables/pyhdf5,但我对可靠性有一些担心(我不能保证只有在进程上才会写入文件,因此根据文档,数据损坏的风险很高)。我也承受不起数据泄露
旁注:我对DB优化非常满意,所以我非常清楚关系限制
你有什么想法
目前没有回答
相关问题 更多 >
编程相关推荐