鱿鱼绑定
ocrd-calamari的Python项目详细描述
乌卡拉马里
Recognize text using Calamari OCR.
简介
ocrd_calamari为calamari OCR的功能提供了一个OCR-D兼容的工作区处理器。它使用OCR-D工作区(METS)和PAGE XML文档作为输入和输出。在
这个处理器只在文本行级别工作,因此需要一个行分段(扩展为二进制) 图像)作为输入。在
除了行文本,它还可以输出单词和字形分割
包括每字形置信值和每字形替代预测
由Calamari OCR引擎提供,使用textequiv_level
的word
或
^{cd3}。注意,虽然Calamari不提供分词功能,但是
处理器产生从文本推断出的分词
分割和字形位置。提供的字形和分词
可用于文本提取和高亮显示,但可能对
进一步的基于图像的处理。在
安装
从PyPI
pip install ocrd_calamari
从回购
^{pr2}$安装模型
下载经过GT4HistOCR数据培训的车型:
make gt4histocr-calamari1
ls gt4histocr-calamari1
手动下载:model.tar.xz
示例用法
在使用ocrd-calamari-recognize
之前,获取一些示例数据和模型,然后
准备OCR文档:
# Download model and example data
make gt4histocr-calamari1
make actevedef_718448162
# Create binarized images and line segmentation using other OCR-D projects
cd actevedef_718448162
ocrd-olena-binarize -p '{ "impl": "sauvola-ms-split" }' -I OCR-D-IMG -O OCR-D-IMG-BINPAGE,OCR-D-IMG-BIN
ocrd-tesserocr-segment-region -I OCR-D-IMG-BINPAGE -O OCR-D-SEG-REGION
ocrd-tesserocr-segment-line -I OCR-D-SEG-REGION -O OCR-D-SEG-LINE
最后使用ocrd_calamari和下载的模型识别文本:
ocrd-calamari-recognize -p '{ "checkpoint": "../gt4histocr-calamari1/*.ckpt.json" }' -I OCR-D-SEG-LINE -O OCR-D-OCR-CALAMARI
您可能想看看ocrd-tool.json描述 其他参数和默认值。在
开发和测试
有关开发和测试的信息,请参见 README-DEV.md。在
- 项目
标签: