如何修复pythontesseract OCR中的字母混淆?

2024-05-15 08:27:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图用OCR和regex提取增值税发票号,但很多时候字母B与数字8混淆。例如,增值税编号为B28125185,OCR返回828125185。 当然,正则表达式不会检测增值税编号。我读过一些关于Levenshtein距离的文章,但我不知道如何实现它。有没有办法解决这个问题

谢谢


Tags: 距离字母文章数字发票编号regex增值税
1条回答
网友
1楼 · 发布于 2024-05-15 08:27:46

如果您正在使用的图像具有特定的字体,您可以根据自己的需要设计一个模型。下面是一段视频,描述了这一过程: https://www.youtube.com/watch?v=TpD76k2HYms

或者,您可以尝试对图像进行培训—输入增值税编号的图像及其文本,以教tesseract它们的外观

以下是指向培训文档的链接:

https://tesseract-ocr.github.io/tessdoc/TrainingTesseract-4.00.html#tutorial-guide-to-lstmtraining

相关问题 更多 >