Python改进Tesseract-OCR识别名字列表

2024-06-10 18:23:23 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在做一个项目，它将识别游戏中的团队（Overwatch），并记录哪些玩家在哪个团队中。它有一个预先定义的播放对象列表，它只需要识别他们所在的图像。到目前为止，我已经成功地为每支球队拍摄了照片，并得到了每个球员名字的粗略输出，然而，有几个字母混淆了。在

我的输入图像：

OCR的输出：

W THEMIGHTVMRT
ERSVZENVRTTR
ERSVLUCID
ERSVZRRVR
ERSVMEI
EFISVSDMBRR

ERSV RNR
ERSVZENVRTTR
EFISVZHRVR
ERSVMCCREE
ERSVMEI
EHSVRDRDHDG

由此，您可以看到OCR混淆了“A”和“R”以及“Y”和“V”。我能够得到Overwatch使用的字体文件并使用Train Your Tesseract生成一个.traineddata文件—我知道可能有更好的方法来生成这个文件，尽管我不确定如何生成。在

我的代码：

^{pr2}$

我应该如何提高这些字符的识别率？我需要更好的.traineddata文件，还是关于更好的图像处理？在

谢谢你的帮助！

Tags：文件项目对象图像游戏列表定义记录

1条回答

网友

1楼 · 发布于 2024-06-10 18:23:23

正如@FlorianBrucker所提到的，对字符串进行相似性测试可以（通过一些微调）在OCR级别之后找到正确的字符串。在