利用NLTK设计搜索引擎

2024-04-25 02:43:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在为文档和相关文件创建一个数据库。我正在对需要OCR的文档运行OCR,并从可用的文档中提取文本。因此,我试图从那里收集尽可能多的信息,并将它们存储在数据库中。在

我浏览了这个名为NLTK的库,并阅读了一些关于数据库设计的知识。似乎搭配就是建议的。目前我正在收集二元和三元搭配,但我注意到,它选择的东西太具体的文件文本和不够广泛(如标题)。在

我的问题/想法如下:

  • 当它可能是一份关于保险费用的文件时,搜索诸如[髋关节、置换、手术]这样的特定搭配似乎并不更好。例如,我们可以有多个文档,这些文档具有相同的三元结构,并设置为不同的时间段。在
  • 因此,有没有一种方法可以过滤出多组OCR结果中常见的和预期的搭配?在
  • 是否有其他数据集对搜索功能更有价值或更重要?在

我来这里是为了更好地理解我正在努力实现的目标,但老实说,我知道的并不多。所以,任何帮助都是非常感谢的,如果你能想象我是难以置信的天真,所以我可能需要一个非常基本的解释。在


Tags: 文件方法文档文本信息数据库标题结构