OSError:环境中未找到Tesseract。检查变量和PATH
我正在尝试使用img2table来读取扫描图像中的数据。我从一个简单的例子开始,但总是遇到一个错误:OSError: 找不到Tesseract环境。请检查变量和PATH。
这是我的代码:
from img2table.document import Image
from img2table.ocr import TesseractOCR
img = Image("mark sheet.jpg")
tesseract = TesseractOCR()
# Extract tables with Tesseract and PaddleOCR
tables = img.extract_tables(ocr=tesseract, borderless_tables=True)
tables[0].df
这是错误信息:
"C:\Users\PC\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\LocalCache\local-packages\Python311\site-packages\img2table\ocr\tesseract.py", line 56, in __init__
raise EnvironmentError("Tesseract not found in environment. Check variables and PATH")
看起来我安装的这个库在某个环境中找不到东西。我不知道该怎么继续。
请帮帮我。
1 个回答
1
你遇到这个错误是因为Python找不到Tesseract这个程序。Tesseract是一个外部的OCR(光学字符识别)库,它不在pytesseract
这个Python库里面。pytesseract
只是一个工具,用来和Tesseract库进行互动。所以,除了用pip
安装pytesseract之外,你还需要下载Tesseract OCR程序,并把它添加到你的PATH
中,这样Python才能找到它。
这个指南对整个过程的说明很清楚:https://ironsoftware.com/csharp/ocr/blog/ocr-tools/tesseract-ocr-windows/
这里是官方的安装文档:https://tesseract-ocr.github.io/tessdoc/Installation.html