如何提高Pytesseract提取数字的准确性

2024-04-19 19:22:55 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在测试Pytesseract，并使用它来提取如下所示的数字。你知道吗

图像质量相当不错（200 dpi）。但是，当我运行pytesseract时，它会给出结果456-/8-0000，其中数字7被错误地识别为“/”。虽然“/”显然与数字7有些相似，但考虑到图像的高质量，我仍然对它感到惊讶。你知道吗

我两个都试过了

pytesseract.image_to_string(img)

以及

pytesseract.image_to_string(img, lang='eng', config='--psm 13 --oem 2 -c tessedit_char_whitelist=0123456789-')

两者都产生了相同的结果。你知道吗

任何关于如何提高识别准确率的指针都是很好的。谢谢！你知道吗

Tags： to 图像 image config lang img string 错误

1条回答

网友

1楼 · 发布于 2024-04-19 19:22:55

您使用哪个版本的tesseract。哪些数据？利用tesseract和TesserData最近的工程，最佳结果是完美的：

> tesseract 0mIe5.png  - quiet
456-78-0000