2024-05-15 08:27:46 发布
网友
我试图用OCR和regex提取增值税发票号,但很多时候字母B与数字8混淆。例如,增值税编号为B28125185,OCR返回828125185。 当然,正则表达式不会检测增值税编号。我读过一些关于Levenshtein距离的文章,但我不知道如何实现它。有没有办法解决这个问题
谢谢
如果您正在使用的图像具有特定的字体,您可以根据自己的需要设计一个模型。下面是一段视频,描述了这一过程: https://www.youtube.com/watch?v=TpD76k2HYms
或者,您可以尝试对图像进行培训—输入增值税编号的图像及其文本,以教tesseract它们的外观
以下是指向培训文档的链接:
https://tesseract-ocr.github.io/tessdoc/TrainingTesseract-4.00.html#tutorial-guide-to-lstmtraining
如果您正在使用的图像具有特定的字体,您可以根据自己的需要设计一个模型。下面是一段视频,描述了这一过程: https://www.youtube.com/watch?v=TpD76k2HYms
或者,您可以尝试对图像进行培训—输入增值税编号的图像及其文本,以教tesseract它们的外观
以下是指向培训文档的链接:
https://tesseract-ocr.github.io/tessdoc/TrainingTesseract-4.00.html#tutorial-guide-to-lstmtraining
相关问题 更多 >
编程相关推荐