如何修复pythontesseract OCR中的字母混淆？ - 问答 - Python中文网

如何修复pythontesseract OCR中的字母混淆？

2024-05-15 08:27:46 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我试图用OCR和regex提取增值税发票号，但很多时候字母B与数字8混淆。例如，增值税编号为B28125185，OCR返回828125185。当然，正则表达式不会检测增值税编号。我读过一些关于Levenshtein距离的文章，但我不知道如何实现它。有没有办法解决这个问题

谢谢

Tags：距离字母文章数字发票编号 regex 增值税

1条回答

网友

1楼 · 发布于 2024-05-15 08:27:46

如果您正在使用的图像具有特定的字体，您可以根据自己的需要设计一个模型。下面是一段视频，描述了这一过程： https://www.youtube.com/watch?v=TpD76k2HYms

或者，您可以尝试对图像进行培训—输入增值税编号的图像及其文本，以教tesseract它们的外观

以下是指向培训文档的链接：

https://tesseract-ocr.github.io/tessdoc/TrainingTesseract-4.00.html#tutorial-guide-to-lstmtraining

相关问题更多 >

编程相关推荐

热门问题

热门文章