利用NLTK设计搜索引擎 - 问答 - Python中文网

利用NLTK设计搜索引擎

2024-04-25 02:43:58 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在为文档和相关文件创建一个数据库。我正在对需要OCR的文档运行OCR，并从可用的文档中提取文本。因此，我试图从那里收集尽可能多的信息，并将它们存储在数据库中。在

我浏览了这个名为NLTK的库，并阅读了一些关于数据库设计的知识。似乎搭配就是建议的。目前我正在收集二元和三元搭配，但我注意到，它选择的东西太具体的文件文本和不够广泛（如标题）。在

我的问题/想法如下：

当它可能是一份关于保险费用的文件时，搜索诸如[髋关节、置换、手术]这样的特定搭配似乎并不更好。例如，我们可以有多个文档，这些文档具有相同的三元结构，并设置为不同的时间段。在
因此，有没有一种方法可以过滤出多组OCR结果中常见的和预期的搭配？在
是否有其他数据集对搜索功能更有价值或更重要？在

我来这里是为了更好地理解我正在努力实现的目标，但老实说，我知道的并不多。所以，任何帮助都是非常感谢的，如果你能想象我是难以置信的天真，所以我可能需要一个非常基本的解释。在

Tags：文件方法文档文本信息数据库标题结构

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章