印刷文档的结构神经网络OCR

2024-04-19 07:49:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在学习神经网络,用tensorflow为打印文档建立OCR。在

你能给我建议一下哪种结构的神经网络有利于识别字符吗。 我很困惑,因为我是个新手,有很多神经网络设计

我发现了MNIST分类器,但它们的体系结构只涉及数字。 我不知道他们的架构能不能和角色一起工作?在

谢谢你


Tags: 文档角色分类器架构体系结构tensorflow数字神经网络
1条回答
网友
1楼 · 发布于 2024-04-19 07:49:31

正如您正确指出的,识别文档与识别单个字符是不同的。这是一个复杂的系统,从零开始实施需要时间。首先,存在预处理问题。你需要找到文本的位置,也许稍微旋转一下,等等,这可以用启发式和OpenCV这样的库来完成。您还必须检测诸如页码、页眉/页脚、表/图等内容

然后,在某些情况下,您可以采取“简单”的路线,并使用启发式将文本分割为字符。它适用于块字符,但不适用于草书。在

如果分段是给定的,并且你不必猜测它,你必须解决多个相关的问题,每个问题都类似于MNIST,但它们是相关的,因为决策不是独立的。您可以查找MEMM(最大熵马尔可夫模型)与HMM(Hidden Markov ModelsHidden Conditional Random Fields,和Segmental Conditional Random Fields)的对比,并研究它们之间的区别。您也可以阅读seq2seq。在

因此,如果你想让它变得简单,你可以在细分结果被揭示后多次运行MNIST分类器(通过opencv中的一些启发式方法)。除此之外,您还必须运行一个dynamic program,它根据每个决策的得分找到最佳的最终序列,并运行一个“语言模型”,它指定字母之间出现的可能性。在

如果你从零开始,这不是一件容易的事。你可能需要几个月的时间才能基本了解。黑客快乐!在

相关问题 更多 >