可靠地将pdf文件转换为图像文件。

pdf2images的Python项目详细描述


PDF2图像

将pdf文件转换为图像文件非常可靠

示例

$ pdf2images -h
usage: pdf2images [-h] [--max-size MAX_SIZE] pdf_file output_dir

positional arguments:
  pdf_file
  output_dir

optional arguments:
  -h, --help           show this help message and exit
  --max-size MAX_SIZE  max size of either side of the image

为什么要使用另一个“pdf to image”软件包

偶尔,我需要转换一个pdf文件(通常是幻灯片或学术文件 (纸张)进入图像文件(缩略图),以便快速浏览 不下载pdf文件的阅读器。

但是,我发现所有的pdf2image解决方案都不能可靠地处理所有 pdf文件,因为许多pdf文件是非标准格式的,或者 分机。在某些情况下,它们总是坏的。

但是从好的方面来看,对于任何可能的情况,几乎有 其中一个可以成功处理。

所以我把(也就是说ensemble)组合在一起,使其在大多数情况下都能工作。

安装

如上所述,我们组合了多个pdf操作库。这是 使用的库列表:

其中wand和preview generator是可以自动 与pdf2images一起安装。但是,您必须安装xpdf和qpdf 手动操作。

在ubuntu上:

sudo apt install -y qpdf xpdf

在Arch Linux上:

sudo pacman -S qpdf xpdf

pdf2images的安装非常简单:

pip install pdf2images

稳健性

这个软件包已经成功地处理了成千上万的ARXIV文件。 (用于生成缩略图)。

胆怯

以下图像是从slideDeep Learning Book转换而来的

page-0page-1page-2page-3

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java RestTemplate到elasticsearch 6.7.0搜索>错误请求   java如何在OpenGL中对半透明三角形排序?   java如何将Pentaho6.0连接到HadoopHive   java更改图像视图大小   SQL查询在TOAD中运行良好,但在java代码中则不行   java需要根据事件发送HTTP请求   java HTMLUnit在javascript异常上挂起/无限循环   java阵列访问如何影响性能?   使用回滚时不引发异常的java事务测试方法   java如何在最近屏幕后返回到上一个活动   Java泛型函数返回声明   java从二进制文件读取   使用java泛型扩展接口还是糟糕的设计?   java是否将日历设置为特定日期?   java如何在鼠标悬停在一个矩形上时为其指定颜色?