高效地为大型fi中的大量小文档生成文档索引 - 问答 - Python中文网

高效地为大型fi中的大量小文档生成文档索引

2024-04-26 04:46:41 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

目标

我有以下格式的大量语料库：

<entry id=1>
Some text
...
Some more text
</entry>

...

<entry id=k>
Some text
...
Some more text
</entry>

这个语料库有上千万个词条，我想处理的其他语料库还有更多。在

我想把每个条目作为一个单独的文档来处理，并从语料库中的单词到它们出现的文档列表进行映射。在

问题

理想情况下，我只需将文件拆分为每个条目的单独文件，然后在包含所有文件的目录上运行类似Lucene索引器的程序。然而，创建数以百万计的文件似乎使我的实验室计算机崩溃。在

问题

有没有相对简单的方法来解决这个问题？我应该把所有的条目放在一个文件里吗？如何跟踪它们在文件中的位置以便在索引中使用？我应该为每个条目使用其他工具而不是单独的文件吗？在

如果相关的话，我大部分的代码都是用Python编写的，但也欢迎使用其他语言的解决方案。在

Tags：文件 text 文档 id 目标列表 more 格式

1条回答

网友

1楼 · 发布于 2024-04-26 04:46:41

好吧，将所有条目保存在一个文件中不是一个好主意。您可以使用生成器处理大文件，以避免内存问题，逐个条目，然后我建议将每个条目存储在数据库中。在这个过程中，您可以动态地构建所有相关的内容，例如术语频率、文档频率、发布列表等，这些内容也可以保存在数据库中。在

这个question可能有一些有用的信息。在

再看一下this以获得一个想法。在

相关问题更多 >

编程相关推荐

热门问题

热门文章