未提供项目说明
ocrd-anybaseocr的Python项目详细描述
文档预处理与分割
Tools for preprocessing scanned images for OCR
安装
- 在
- 创建一个新的
venv
,除非您已经有一个
$python3-m个venv venv
在 - 创建一个新的
- 在
- 激活
venv
$source venv/bin/激活
在 - 激活
- 在
- 使用
make
安装
$make安装
在 - 使用
#工具
二元发生器
方法行为
此函数以扫描的彩色/灰度文档图像为输入,对图像进行黑白二值化处理。在
用法:
ocrd-anybaseocr-binarize -m (path to METs input file) -I (Input group name) -O (Output group name)[-p (path to parameter file) -o (METs output filename)]
示例:
^{pr2}$台式饮水机
方法行为
此函数将文档图像作为输入,并对该文档执行倾斜校正。输入图像必须进行二值化才能使该模块工作。在
用法:
ocrd-anybaseocr-deskew -m (path to METs input file) -I (Input group name) -O (Output group name)[-p (path to parameter file) -o (METs output filename)]
示例:
ocrd-anybaseocr-deskew \ -m mets.xml \ -I OCR-D-PAGE-BIN \ -O OCR-D-PAGE-DESKEW
收割机
方法行为
此函数以文档图像为输入,仅裁剪/选择页面内容区域(这意味着删除文本噪音以及页面内容区域周围的任何其他噪音)。输入图像必须进行二值化处理,并且应该使模块能够正常工作。在
用法:
ocrd-anybaseocr-crop -m (path to METs input file) -I (Input group name) -O (Output group name)[-p (path to parameter file) -o (METs output filename)]
示例:
ocrd-anybaseocr-crop \ -m mets.xml \ -I OCR-D-PAGE-DESKEW \ -O OCR-D-PAGE-CROP
脱水器
方法行为
此函数以文档图像为输入,如果文本行弯曲,则使其成为直线。输入图像必须进行二值化,模块才能正常工作。在
用法:
ocrd-anybaseocr-dewarp -m (path to METs input file) -I (Input group name) -O (Output group name)[-p (path to parameter file) -o (METs output filename)]
示例:
CUDA_VISIBLE_DEVICES=0 ocrd-anybaseocr-dewarp \ -m mets.xml \ -I OCR-D-PAGE-CROP \ -O OCR-D-PAGE-DEWARP
文本/非文本分段器
方法行为
此函数将文档图像作为输入,并将文本和非文本部分与输入文档图像分开。 该模块输出2个替代图像,而不是文档区域,文档区域是输入图像的剪辑(二进制)版本,只包含文本或非文本组件。在
用法:
ocrd-anybaseocr-tiseg -m (path to METs input file) -I (Input group name) -O (Output group name)[-p (path to parameter file) -o (METs output filename)]
示例:
ocrd-anybaseocr-tiseg \ -m mets.xml \ -I OCR-D-PAGE-CROP \ -O OCR-D-PAGE-TISEG
文本行分段器
方法行为
此函数将裁剪的文档图像作为输入,并将图像分割为文本行图像。输入图像应该进行二值化和反汇编,以便模块正常工作。在
用法:
ocrd-anybaseocr-textline -m (path to METs input file) -I (Input group name) -O (Output group name)[-p (path to parameter file) -o (METs output filename)]
示例:
ocrd-anybaseocr-textline \ -m mets.xml \ -I OCR-D-PAGE-TISEG \ -O OCR-D-PAGE-TL
分段器
方法行为
此函数将原始文档图像作为输入,并将图像分割为不同的文本块。在
用法:
ocrd-anybaseocr-block-segmenter -m (path to METs input file) -I (Input group name) -O (Output group name)[-p (path to parameter file) -o (METs output filename)]
示例:
ocrd-anybaseocr-block-segmenter \ -m mets.xml \ -I OCR-IMG \ -O OCR-D-PAGE-BLOCK
文件分析器
方法行为
该函数以一本书的所有裁剪文档图像及其对应的文本区域作为输入,生成图书级别的逻辑结构。输入图像应该被二进制化,这个模块才能工作。在
用法:
ocrd-anybaseocr-layout-analysis -m (path to METs input file) -I (Input group name) -O (Output group name)[-p (path to parameter file) -o (METs output filename)]
示例:
ocrd-anybaseocr-layout-analysis \ -m mets.xml \ -I OCR-IMG \ -O OCR-D-PAGE-BLOCK
测试
要测试这些工具,请下载OCR-D/assets。在 特别是,代码是用 dfki-testdata 数据集。在
运行make test
以运行所有测试。在
许可证
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
- 项目
标签: