高效地为大型fi中的大量小文档生成文档索引

2024-04-26 04:46:41 发布

您现在位置:Python中文网/ 问答频道 /正文

目标

我有以下格式的大量语料库:

<entry id=1>
Some text
...
Some more text
</entry>

...

<entry id=k>
Some text
...
Some more text
</entry>

这个语料库有上千万个词条,我想处理的其他语料库还有更多。在

我想把每个条目作为一个单独的文档来处理,并从语料库中的单词到它们出现的文档列表进行映射。在

问题

理想情况下,我只需将文件拆分为每个条目的单独文件,然后在包含所有文件的目录上运行类似Lucene索引器的程序。然而,创建数以百万计的文件似乎使我的实验室计算机崩溃。在

问题

有没有相对简单的方法来解决这个问题?我应该把所有的条目放在一个文件里吗?如何跟踪它们在文件中的位置以便在索引中使用?我应该为每个条目使用其他工具而不是单独的文件吗?在

如果相关的话,我大部分的代码都是用Python编写的,但也欢迎使用其他语言的解决方案。在


Tags: 文件text文档id目标列表more格式
1条回答
网友
1楼 · 发布于 2024-04-26 04:46:41

好吧,将所有条目保存在一个文件中不是一个好主意。您可以使用生成器处理大文件,以避免内存问题,逐个条目,然后我建议将每个条目存储在数据库中。在这个过程中,您可以动态地构建所有相关的内容,例如术语频率、文档频率、发布列表等,这些内容也可以保存在数据库中。在

这个question可能有一些有用的信息。在

再看一下this以获得一个想法。在

相关问题 更多 >