查找两个PDF文档之间的差异

pdf-diff的Python项目详细描述


pdf差异

查找两个PDF文档之间的差异:

  1. 比较两个pdf文档的文本层,并以json格式输出更改文本的边界框。
  2. 将PDF中更改的页面光栅化为PNG,并围绕更改的文本绘制红色轮廓。

Example Image Output

脚本是用python 3编写的,它依赖于pdftotext程序。

要求

libxml2 >= 2.7.0, libxslt >= 1.1.23, poppler

ubuntu的安装要求:

sudo apt-get install python3-lxml poppler-utils

OS X的安装要求:

brew install libxml2 libxslt poppler

安装

来自PYPI:

pip install pdf-diff

来源:

sudo python3 setup.py install

运行

将两个PDF转换为一个显示差异的大PNG图像:

pdf-diff before.pdf after.pdf > comparison_output.png

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java与Groovy正则表达式匹配混淆   java控制台未定义为JSNI   主目录中的java指针异常   java如何获取hashmap中的arrayList的大小   ApachePOI用于文本,Java代码中的word doc(.docx)中没有进行追加   Ruby对象到Java对象   JavaSpringJPA哈希集只返回一个值   Java在执行由配置了精确类路径参数的mavenjarpluin生成的可执行jar时无法找到依赖项   java我试图在画布上写一个文本,但什么也没发生   java HTTP 404源服务器找不到目标资源的当前表示形式,或者不愿意透露存在该表示形式。不起作用   java提取小数点后的最后一个数字   oop Java:无法访问对象的元素   PHP URL中RecyclerView中的java句柄空异常   不调用OnCreateViewHolder的java Update RecyclerView适配器项