印刷文档的结构神经网络OCR

1条回答

网友

1楼 · 发布于 2024-04-19 07:49:31

正如您正确指出的，识别文档与识别单个字符是不同的。这是一个复杂的系统，从零开始实施需要时间。首先，存在预处理问题。你需要找到文本的位置，也许稍微旋转一下，等等，这可以用启发式和OpenCV这样的库来完成。您还必须检测诸如页码、页眉/页脚、表/图等内容

然后，在某些情况下，您可以采取“简单”的路线，并使用启发式将文本分割为字符。它适用于块字符，但不适用于草书。在

如果分段是给定的，并且你不必猜测它，你必须解决多个相关的问题，每个问题都类似于MNIST，但它们是相关的，因为决策不是独立的。您可以查找MEMM（最大熵马尔可夫模型）与HMM（Hidden Markov Models，Hidden Conditional Random Fields，和Segmental Conditional Random Fields）的对比，并研究它们之间的区别。您也可以阅读seq2seq。在

因此，如果你想让它变得简单，你可以在细分结果被揭示后多次运行MNIST分类器（通过opencv中的一些启发式方法）。除此之外，您还必须运行一个dynamic program，它根据每个决策的得分找到最佳的最终序列，并运行一个“语言模型”，它指定字母之间出现的可能性。在

如果你从零开始，这不是一件容易的事。你可能需要几个月的时间才能基本了解。黑客快乐！在

相关问题更多 >

编程相关推荐

热门问题

热门文章