OSError:环境中未找到Tesseract。检查变量和PATH

0 投票
1 回答
52 浏览
提问于 2025-04-14 16:16

我正在尝试使用img2table来读取扫描图像中的数据。我从一个简单的例子开始,但总是遇到一个错误:OSError: 找不到Tesseract环境。请检查变量和PATH。

这是我的代码:

from img2table.document import Image
from img2table.ocr import TesseractOCR

img = Image("mark sheet.jpg")
tesseract = TesseractOCR()

# Extract tables with Tesseract and PaddleOCR
tables = img.extract_tables(ocr=tesseract, borderless_tables=True)

tables[0].df

这是错误信息:

"C:\Users\PC\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\LocalCache\local-packages\Python311\site-packages\img2table\ocr\tesseract.py", line 56, in __init__
    raise EnvironmentError("Tesseract not found in environment. Check variables and PATH")

看起来我安装的这个库在某个环境中找不到东西。我不知道该怎么继续。

请帮帮我。

1 个回答

1

你遇到这个错误是因为Python找不到Tesseract这个程序。Tesseract是一个外部的OCR(光学字符识别)库,它不在pytesseract这个Python库里面。pytesseract只是一个工具,用来和Tesseract库进行互动。所以,除了用pip安装pytesseract之外,你还需要下载Tesseract OCR程序,并把它添加到你的PATH中,这样Python才能找到它。

这个指南对整个过程的说明很清楚:https://ironsoftware.com/csharp/ocr/blog/ocr-tools/tesseract-ocr-windows/

这里是官方的安装文档:https://tesseract-ocr.github.io/tessdoc/Installation.html

撰写回答