自动化ADF扫描、OCR和PDF创建的工作流程

adf2pdf的Python项目详细描述


adf2pdf-将一批纸页转换为pdf的工具 有一个文本层。默认情况下,它检测空页(因为 在双面扫描过程中很容易发生)并将其排除在 ocr和生成的pdf。

为此,它使用Sane'sscanimage进行扫描, Tesseract用于[光学字符识别](ocr),以及 python包img2pdfPillow (PIL)PyPDF2用于一些图像处理任务和pdf管理。

示例:

$ adf2pdf contract-xyz.pdf

2017年,乔治索多夫mail@gms.tf

功能

  • 自动文档馈送(ADF)支持
  • 快速空页检测
  • 扫描、图像处理、ocr和pdf生成的叠加 最小化总运行时间
  • 使用精细的img2pdf包快速创建小型PDF
  • 仅使用安全的压缩方法,即不易出错 符号分段样式压缩,如JBIG2或jb2 在Xerox photocopiers和djvu格式中使用的。

安装说明

adf2pdf可以直接与^{}一起安装,例如

$ pip3 install --user adf2pdf

$ pip3 install adf2pdf

另请参见PyPI adf2pdf project page

或者,python文件adf2pdf.py可以直接 在克隆的存储库中执行,例如:

$ ./adf2pdf.py report.pdf

除此之外,还可以从 像这样的克隆工作树:

$ pip3 install --user .

硬件要求

支持自动文档馈送(ADF)的扫描仪 神志清醒。例如,Fujitsu ScanSnap S1500工作 好。该模型支持双重扫描,这是相当 方便。

示例(续)

为一个7页的示例文档运行adf2pdf需要150秒 在i7-6600u(Intel Skylake,4核)CPU上(使用 富士通扫描快照S1500)。使用默认值,adf2pdf调用 scanimage用于600 dpi线性区(黑色和 白色)图像。在本例中,6页是空的,因此 自动排除,即生成的pdf只包含 8页。

生成的pdf包含来自ocr的文本层,以便 你可以搜索并复制粘贴一些文本。它有1.1兆字节大, 也就是说,一页纸平均存储在132千磅。

软件要求

默认情况下,脚本假定Tesseract版本4。版本3罐 也可以使用,但是new neural network system in Tesseract 4的性能比旧的ocr模型要好。 截至2018年年中,还没有稳定的版本4,但是 测试版在ocr上要好多了,我不推荐。 足够稳定的版本3了。

tesseract 4注释:

  • Build instructions-警告:如果您错过了 autoconf-archive依赖性会出现奇怪的autoconf错误 消息
  • Data files-你需要你的训练数据 选择的语言和OSD数据

python包:

  • img2pdf(尚未打包用于Fedora)-版本0.2.4可以工作 罚款
  • Pillow (PIL)(软呢帽包装:Python3枕头垫)
  • PyPDF2(Fedora软件包:python3-pypdf2)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java IntelliJ找不到依赖项选项卡   java向字符串数组string[]添加元素并在Junit中测试结果   如何在eclipse中获取活动java项目的名称   如何使用java在mysql中插入时间   java ArrayList更新了插入一行,但Jtable仍然没有刷新   如何在JavaSwing中命名坐标(点)   java Matcher/模式不打印   java错误地设置了arraylist   使用UsernamePasswordCredential提供程序的java列表Azure AD   java在HTTP请求中设置UTC时间   未加载事件:jquery完整日历Java集成   java Maven插件依赖项无法从内部repo解析依赖项   Maven更新重置Java版本   java如何向中添加图片。带有Apache POI XWPF的docx,但不指定其大小   Java最大函数递归