所有语言的ocr/htr引擎

kraken的Python项目详细描述


说明

https://travis-ci.org/mittagessen/kraken.svg?branch=master

克雷肯是一个ocropus的分支,旨在纠正一些问题,同时 保持(主要是)功能对等。它的主要功能是:

  • Script detection and multiscript recognition support
  • Right-to-Left, BiDi, and Top-to-Bottom script support
  • ALTO, abbyXML, and hOCR output
  • Word bounding boxes and character cuts
  • Public repository of model files
  • Dynamic recognition model architectures and GPU acceleration
  • Clean public API

安装

使用最新版本的pip时,所有依赖项都将从 二进制轮包,因此安装Build Essential或您的发行版 等价物通常是不必要的。Kraken只在Linux或Mac OS X上运行。 不支持Windows。

通过conda

安装最新的1.0版本
$ wget https://raw.githubusercontent.com/mittagessen/kraken/master/environment.yml
$ conda env create -f environment.yml

或:

$ wget https://raw.githubusercontent.com/mittagessen/kraken/master/environment_cuda.yml
$ conda env create -f environment_cuda.yml

使用适当的硬件加速CUDA。

也可以从pypi安装相同的版本:

$ pip install kraken

最后你得找一个模型来识别 角色。下载打印英文文本的默认模型并将其放置 在当前用户的kraken目录中:

$ kraken get default

中央存储库中可用的libre模型列表可以通过 跑步:

$ kraken list

快速启动

使用默认参数识别图像上的文本,包括 二值化和页面分割的先决步骤:

$ kraken -i image.tif image.txt binarize segment ocr

使用nlbin算法对单个图像进行二值化:

$ kraken -i image.tif bw.png binarize

将二值化图像分割为按读取顺序排序的行:

$ kraken -i bw.png lines.json segment

使用默认rnn和先前生成的 页面分段:

$ kraken -i bw.png image.txt ocr --lines lines.json

所有子命令和选项都有文档记录。使用help选项获取更多 信息。

文档

看看docs

资金

克拉肯是在Université PSL开发的。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
javapojo到org。布森。文件,反之亦然   java突然增加了G1老一代的承诺内存,减少了Eden的大小   java为什么对多个RXJava观察对象不执行并行执行?   java中的枚举是故障安全的吗?如果是,怎么做?   java是等待字符串变为相等的正确方法   java CodeAbbey挑战14个数据输入问题?   在java中的任意位置插入。util。列表   java替换html中的值   java需要帮助破译一个小堆栈跟踪:我使用的是哪种WS?   java Guice依赖项注入器空指针异常   java如何在3D引擎中实现视图剪裁平面?   JavaEclipseRCP:操作与命令需要更新   java如何使用XPAGES DesignerFacesServlet显示泰语字母(以及另一个亚洲/阿拉伯字母)   java装饰器模式问题   java我对空间复杂性的分析正确吗?   不显示java OpenGL ES 2纹理   使用java问题中的wc命令计算行数   java为什么空指针异常取决于条件的顺序?   Java日期在同一天或同一个月   java在使用lambda表达式时在变量中存储一些值