擅长:python、mysql、java
<p>训练很难,不是这里真正需要的。无论脚本如何,O和0以及l和1之间的区别都将很难区分。如果上下文允许,将OCR限制为只在数字之间进行选择可以极大地简化问题。</p>
<p>我对tesseract的兴趣在于处理旧政府报告中的大量数据。在这种情况下,在有问题的情况下,字符集将类似于“0123456789”。在eric嫒u taj于2007-03-21在tesseract的旧(sourceforge)新闻组中发表评论后,您可以修改classify/intproto.cpp中的模板->;IndexFor和模板->;ClassIdFor,以屏蔽不允许的字符。我修改了这种方法,以便在运行时在环境变量中读入允许的字符集,以便可以动态地调整允许的集。</p>