所有语言的ocr/htr引擎
kraken的Python项目详细描述
说明
克雷肯是一个ocropus的分支,旨在纠正一些问题,同时 保持(主要是)功能对等。它的主要功能是:
- Script detection and multiscript recognition support
- Right-to-Left, BiDi, and Top-to-Bottom script support
- ALTO, abbyXML, and hOCR output
- Word bounding boxes and character cuts
- Public repository of model files
- Dynamic recognition model architectures and GPU acceleration
- Clean public API
安装
使用最新版本的pip时,所有依赖项都将从 二进制轮包,因此安装Build Essential或您的发行版 等价物通常是不必要的。Kraken只在Linux或Mac OS X上运行。 不支持Windows。
通过conda:
安装最新的1.0版本$ wget https://raw.githubusercontent.com/mittagessen/kraken/master/environment.yml $ conda env create -f environment.yml
或:
$ wget https://raw.githubusercontent.com/mittagessen/kraken/master/environment_cuda.yml $ conda env create -f environment_cuda.yml
使用适当的硬件加速CUDA。
也可以从pypi安装相同的版本:
$ pip install kraken
最后你得找一个模型来识别 角色。下载打印英文文本的默认模型并将其放置 在当前用户的kraken目录中:
$ kraken get default
中央存储库中可用的libre模型列表可以通过 跑步:
$ kraken list
快速启动
使用默认参数识别图像上的文本,包括 二值化和页面分割的先决步骤:
$ kraken -i image.tif image.txt binarize segment ocr
使用nlbin算法对单个图像进行二值化:
$ kraken -i image.tif bw.png binarize
将二值化图像分割为按读取顺序排序的行:
$ kraken -i bw.png lines.json segment
使用默认rnn和先前生成的 页面分段:
$ kraken -i bw.png image.txt ocr --lines lines.json
所有子命令和选项都有文档记录。使用help选项获取更多 信息。
文档
看看docs
资金
克拉肯是在Université PSL开发的。