Python Tesseract无法识别此fon

网友

1楼 · 编辑于 2024-04-29 21:52:56

训练很难，不是这里真正需要的。无论脚本如何，O和0以及l和1之间的区别都将很难区分。如果上下文允许，将OCR限制为只在数字之间进行选择可以极大地简化问题。

我对tesseract的兴趣在于处理旧政府报告中的大量数据。在这种情况下，在有问题的情况下，字符集将类似于“0123456789”。在eric嫒u taj于2007-03-21在tesseract的旧（sourceforge）新闻组中发表评论后，您可以修改classify/intproto.cpp中的模板->；IndexFor和模板->；ClassIdFor，以屏蔽不允许的字符。我修改了这种方法，以便在运行时在环境变量中读入允许的字符集，以便可以动态地调整允许的集。

网友

2楼 · 编辑于 2024-04-29 21:52:56

最近tesseract OCR discussion group上有很多关于这个话题的报道。你将需要使用一种仅仅是数字的“语言”。许多人以前就这样训练过发动机。看来你是想骗过一个验证码数据保护计划。。。tsk，tsk。

网友

3楼 · 编辑于 2024-04-29 21:52:56

只需训练引擎10位数字和一个“.”。应该可以。并确保在OCR之前将图像更改为灰度。

相关问题更多 >

编程相关推荐

热门问题

热门文章