我正在为文档和相关文件创建一个数据库。我正在对需要OCR的文档运行OCR,并从可用的文档中提取文本。因此,我试图从那里收集尽可能多的信息,并将它们存储在数据库中。在
我浏览了这个名为NLTK的库,并阅读了一些关于数据库设计的知识。似乎搭配就是建议的。目前我正在收集二元和三元搭配,但我注意到,它选择的东西太具体的文件文本和不够广泛(如标题)。在
我的问题/想法如下:
我来这里是为了更好地理解我正在努力实现的目标,但老实说,我知道的并不多。所以,任何帮助都是非常感谢的,如果你能想象我是难以置信的天真,所以我可能需要一个非常基本的解释。在
目前没有回答
相关问题 更多 >
编程相关推荐