Python改进Tesseract-OCR识别名字列表

2024-06-10 18:23:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在做一个项目,它将识别游戏中的团队(Overwatch),并记录哪些玩家在哪个团队中。它有一个预先定义的播放对象列表,它只需要识别他们所在的图像。到目前为止,我已经成功地为每支球队拍摄了照片,并得到了每个球员名字的粗略输出,然而,有几个字母混淆了。在

我的输入图像:

Team 1 image

Team 2 Image

OCR的输出:

W THEMIGHTVMRT
ERSVZENVRTTR
ERSVLUCID
ERSVZRRVR
ERSVMEI
EFISVSDMBRR

ERSV RNR
ERSVZENVRTTR
EFISVZHRVR
ERSVMCCREE
ERSVMEI
EHSVRDRDHDG

由此,您可以看到OCR混淆了“A”和“R”以及“Y”和“V”。我能够得到Overwatch使用的字体文件并使用Train Your Tesseract生成一个.traineddata文件—我知道可能有更好的方法来生成这个文件,尽管我不确定如何生成。在

我的代码:

^{pr2}$

我应该如何提高这些字符的识别率?我需要更好的.traineddata文件,还是关于更好的图像处理?在

谢谢你的帮助!


Tags: 文件项目对象图像游戏列表定义记录