鱿鱼绑定

ocrd-calamari的Python项目详细描述


乌卡拉马里

Recognize text using Calamari OCR.

imageimageimage

简介

ocrd_calamari为calamari OCR的功能提供了一个OCR-D兼容的工作区处理器。它使用OCR-D工作区(METS)和PAGE XML文档作为输入和输出。在

这个处理器只在文本行级别工作,因此需要一个行分段(扩展为二进制) 图像)作为输入。在

除了行文本,它还可以输出单词和字形分割 包括每字形置信值和每字形替代预测 由Calamari OCR引擎提供,使用textequiv_levelword或 ^{cd3}。注意,虽然Calamari不提供分词功能,但是 处理器产生从文本推断出的分词 分割和字形位置。提供的字形和分词 可用于文本提取和高亮显示,但可能对 进一步的基于图像的处理。在

Example output as viewed in PAGE Viewer

安装

从PyPI

pip install ocrd_calamari

从回购

^{pr2}$

安装模型

下载经过GT4HistOCR数据培训的车型:

make gt4histocr-calamari1
ls gt4histocr-calamari1

手动下载:model.tar.xz

示例用法

在使用ocrd-calamari-recognize之前,获取一些示例数据和模型,然后 准备OCR文档:

# Download model and example data
make gt4histocr-calamari1
make actevedef_718448162

# Create binarized images and line segmentation using other OCR-D projects
cd actevedef_718448162
ocrd-olena-binarize -p '{ "impl": "sauvola-ms-split" }' -I OCR-D-IMG -O OCR-D-IMG-BINPAGE,OCR-D-IMG-BIN
ocrd-tesserocr-segment-region -I OCR-D-IMG-BINPAGE -O OCR-D-SEG-REGION
ocrd-tesserocr-segment-line -I OCR-D-SEG-REGION -O OCR-D-SEG-LINE

最后使用ocrd_calamari和下载的模型识别文本:

ocrd-calamari-recognize -p '{ "checkpoint": "../gt4histocr-calamari1/*.ckpt.json" }' -I OCR-D-SEG-LINE -O OCR-D-OCR-CALAMARI

您可能想看看ocrd-tool.json描述 其他参数和默认值。在

开发和测试

有关开发和测试的信息,请参见 README-DEV.md。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何使用Spring和JSF向客户端授予临时权限   java除了Array/ArrayList之外,还有其他保存矩阵元素的方法吗   java BeanValidation不适用于单选按钮   通过java程序连接到配置单元数据库时出错   java如何使用maven解决二级依赖关系   JfreeChart/Java中带有图例的数据表   合并数组时发生java运行时错误   安全性如何在JavaEE中保护WebSocket端点?   java有没有一种方法可以使用insert方法为树插入值   java编程“静态”的另一种方式:代码可以吗?   java阅读文本文件时如何跳过3行   %04X在C中的含义以及如何在java中编写   java我如何验证一个方法不是仅在一个测试范围内对模拟调用的?   java如何在mac中使用启动appium desktop 1.6.1。球棒   仅匹配最多10位小数的java正则表达式