按外观而不是按内容比较两个PDF文件。
pdfcomparator的Python项目详细描述
VERSION | DOWNLOADS | TESTS | COVERAGE |
---|---|---|---|
按外观而不是按内容比较两个PDF文件。它可以在命令行中使用,以便在更大的脚本中使用。
安装
它需要一些库。在debian或ubuntu中,您可以通过apt:
# apt-get install libpoppler-glib-dev python-gtk2 python-cairo-dev python-gobject-dev python-gobject
确保您有一个实际版本的gcc,因为pycairo将需要它(它将选项-fstack protector strong添加到编译选项中)。这个库很难安装,所以这里有我使用的命令行:
$ pip install pycairo==1.8.8 –allow-unverified pycairo –allow-external pycairo
然后您可以照常安装:
$ pip install pdfcomparator
用法
格式是下一个:
$ pdfcompare.py pattern current
它将比较“pattern”和“current”下的文件。
如果他们是平等的,那就什么也印不出来。如果它们不同,它将打印不同的第一页,脚本将返回2。
相似性
通常,两页纸相等或不相等。但也许你只需要一个相似度百分比。所以,你可以用百分比。通常,这会使比较变慢。
因此,它将使用不同的算法来检查上相似度。当其中任何一个失败时,整个比较就失败了。
您可以使用选项–precise启用精确算法,并且您可以使用0到1之间的任意数字,使用–ratio=0.8设置相似度比率。
好好享受吧!
贡献
如果您想参与,请创建一个virtualenv环境:
$ virtualenv venv --system-site-packages $ . venv/bin/activate
为了找到python gobject库,使用系统包很重要。
现在,您应该可以安装pdfcomparator包:
$ python setup.py develop
要测试它:
$ python setup.py test