我已经试用了pytesseract English
。它工作正常,产生了预期的结果。但对于英语以外的其他语言(如阿拉伯语),它无法做到这一点,并给出以下错误:
TesseractError: (1, 'Error opening data file C:\\Program Files (x86)\\Tesseract-OCR\\ara.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language \'ara\' Tesseract couldn\'t load any languages!
Could not initialize tesseract.')
试图从github
完成(ara.traineddata
),但无法完成
pytesseract
是程序tesseract
(由谷歌开发的OCR)上唯一的包装器tesseract
需要使用语言的文件,您可以在其文档中找到:Data Files您可以将ara.traineddata下载到某个文件夹,并使用选项
tessdata-dir some_folder
运行它,然后它将从此文件夹中使用ara.traineddata
如果将
ara.traineddata
保存在与运行代码相同的文件夹中,则可以使用.
(点)你也可以用
config=
在pytesseract
中做同样的事情最终,您可以使用环境变量
TESSDATA_PREFIX
来实现此目的稍后,您可以直接在系统中设置
TESSDATA_PREFIX
,也可以尝试将ara.traineddata
移动到包含其他文件的文件夹.traineddata
。应该有eng.traineddata
的地方,你可以用find
之类的程序/命令来找到我用我在文档中找到的这个图像对它进行了测试:Command Line Usage
顺便说一句:
tesseract
通常将文本保存在文件中,但如果使用stdout
,则它会在控制台中显示文本相关问题 更多 >
编程相关推荐