因此,我尝试获取大量的xml文件(没有一个文件特别大,我可以根据自己的需要将它们拆分),总共有大约70GB的数据。为了便于参考,加载脚本是用python编写的,并使用psycopg2与postgres表接口。你知道吗
不管怎样,我要做的是处理这样的数据。关系计数是两个标记一起出现的次数,标记计数是标记出现的次数。我已经有了所有的标签,只是得到了它们出现的时间,以及它们一起出现的时间,这已经成为了一个问题。你知道吗
Tag Table | Relations Table
TagID TagName TagCount | tag1 tag2 relationCount
1 Dogs 20 | 1 2 5
2 Beagles 10 | 1 3 2
3 Birds 11 | 2 3 7
我遇到的问题是如何在合理的时间内加载数据。在计算xml文件中出现标记的频率时,我一直在迭代更新方法。你知道吗
我想我是在问有没有人有什么想法。我应该创建一些缓冲区来保存更新信息并尝试使用它吗当前执行所有()定期和/或以某种方式重新构造数据库。不管怎样,任何关于这个问题的想法都很感激。你知道吗
如果我理解这个“…我一直在迭代更新方法”,听起来像是在更新数据库行?如果是这样的话,可以考虑编写一些代码来传递XML,将要跟踪的总数累加起来,输出到一个文件中,然后用COPY加载该文件。你知道吗
如果要更新现有数据,请尝试以下操作:
1)传递XML文件以从新数据生成所有新总计
2)将其复制到一个工作表中-一个在每批之前和之后清除的表
3)对于找不到的所有行,从工作表向实际表发出INSERT,为所有值插入零
4)从工作表向实际表发出更新,以增加计数器。你知道吗
5)截断工作台。你知道吗
相关问题 更多 >
编程相关推荐