目标
我有以下格式的大量语料库:
<entry id=1>
Some text
...
Some more text
</entry>
...
<entry id=k>
Some text
...
Some more text
</entry>
这个语料库有上千万个词条,我想处理的其他语料库还有更多。在
我想把每个条目作为一个单独的文档来处理,并从语料库中的单词到它们出现的文档列表进行映射。在
问题
理想情况下,我只需将文件拆分为每个条目的单独文件,然后在包含所有文件的目录上运行类似Lucene索引器的程序。然而,创建数以百万计的文件似乎使我的实验室计算机崩溃。在
问题
有没有相对简单的方法来解决这个问题?我应该把所有的条目放在一个文件里吗?如何跟踪它们在文件中的位置以便在索引中使用?我应该为每个条目使用其他工具而不是单独的文件吗?在
如果相关的话,我大部分的代码都是用Python编写的,但也欢迎使用其他语言的解决方案。在
好吧,将所有条目保存在一个文件中不是一个好主意。您可以使用生成器处理大文件,以避免内存问题,逐个条目,然后我建议将每个条目存储在数据库中。在这个过程中,您可以动态地构建所有相关的内容,例如术语频率、文档频率、发布列表等,这些内容也可以保存在数据库中。在
这个question可能有一些有用的信息。在
再看一下this以获得一个想法。在
相关问题 更多 >
编程相关推荐