将数字和字符弄乱

2024-05-23 21:10:24 发布

您现在位置:Python中文网/ 问答频道 /正文

在过去的几个月里,我一直在使用tesseract,似乎每当出现字母数字时,都会混淆相似的数字和字符,如0和O。 但我的问题是,我使用的文档在所有位置都具有完全相同的字体和像素分布0,但它只有在以字母数字形式出现时才会混淆。有没有办法阻止这一切? 我已经试过了

api=PyTessBaseAPI(lang='eng+eng_1+eng_2+por+fra+spa') 
api.SetVariable("language_model_penalty_non_dict_word","0")
api.SetVariable("load_system_dawg","0")
api.SetVariable("language_model_penalty_non_freq_dict_word  ", "0");
api.SetVariable("load_freq_dawg", "0");
api.SetVariable("load_punc_dawg", "0");
api.SetVariable("load_number_dawg", "0");

或者任何有帮助的预处理。或者培训tesseract来解决这个问题

下面是一个示例图像enter image description here

它将在“FROO11027143”中混淆。 此外,在某些地方,它也给了我0的确认,但它仍然提取正确的信息


Tags: apimodel字母load数字languageengdict