Python Tesseract无法识别此fon

2024-04-29 21:52:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我有这样的形象:

alt text

我想用python把它读成一个字符串,我没想到会那么难。我找到了tesseract,然后找到了一个使用tesseract的python脚本的包装器。

所以我开始读图片,直到我试着读这一张,它做得很好。我需要训练它来阅读特定的字体吗?有什么具体字体的想法吗?或者有更好的ocr引擎我可以用python来完成这项工作。

编辑:也许我可以在数字周围创建某种向量,然后以更大的尺寸重新绘制它们?较大的图像是更好的镶嵌ocr似乎读他们(不奇怪lol)。


Tags: 字符串图像引擎脚本编辑尺寸绘制字体
3条回答

训练很难,不是这里真正需要的。无论脚本如何,O和0以及l和1之间的区别都将很难区分。如果上下文允许,将OCR限制为只在数字之间进行选择可以极大地简化问题。

我对tesseract的兴趣在于处理旧政府报告中的大量数据。在这种情况下,在有问题的情况下,字符集将类似于“0123456789”。在eric嫒u taj于2007-03-21在tesseract的旧(sourceforge)新闻组中发表评论后,您可以修改classify/intproto.cpp中的模板->;IndexFor和模板->;ClassIdFor,以屏蔽不允许的字符。我修改了这种方法,以便在运行时在环境变量中读入允许的字符集,以便可以动态地调整允许的集。

最近tesseract OCR discussion group上有很多关于这个话题的报道。你将需要使用一种仅仅是数字的“语言”。许多人以前就这样训练过发动机。看来你是想骗过一个验证码数据保护计划。。。tsk,tsk。

只需训练引擎10位数字和一个“.”。应该可以。并确保在OCR之前将图像更改为灰度。

相关问题 更多 >