可靠地将pdf文件转换为图像文件。
pdf2images的Python项目详细描述
PDF2图像
将pdf文件转换为图像文件非常可靠。
示例
$ pdf2images -h
usage: pdf2images [-h] [--max-size MAX_SIZE] pdf_file output_dir
positional arguments:
pdf_file
output_dir
optional arguments:
-h, --help show this help message and exit
--max-size MAX_SIZE max size of either side of the image
为什么要使用另一个“pdf to image”软件包
偶尔,我需要转换一个pdf文件(通常是幻灯片或学术文件 (纸张)进入图像文件(缩略图),以便快速浏览 不下载pdf文件的阅读器。
但是,我发现所有的pdf2image解决方案都不能可靠地处理所有 pdf文件,因为许多pdf文件是非标准格式的,或者 分机。在某些情况下,它们总是坏的。
但是从好的方面来看,对于任何可能的情况,几乎有 其中一个可以成功处理。
所以我把(也就是说ensemble)组合在一起,使其在大多数情况下都能工作。
安装
如上所述,我们组合了多个pdf操作库。这是 使用的库列表:
- wand,一个imagemagick python包装器。
pdftotext
由xpdf提供的命令行工具- preview-generator
- qpdf
其中wand和preview generator是可以自动 与pdf2images一起安装。但是,您必须安装xpdf和qpdf 手动操作。
在ubuntu上:
sudo apt install -y qpdf xpdf
在Arch Linux上:
sudo pacman -S qpdf xpdf
pdf2images的安装非常简单:
pip install pdf2images
稳健性
这个软件包已经成功地处理了成千上万的ARXIV文件。 (用于生成缩略图)。
胆怯
以下图像是从slide从Deep Learning Book转换而来的