可靠地将pdf文件转换为图像文件。

pdf2images的Python项目详细描述


PDF2图像

将pdf文件转换为图像文件非常可靠

示例

$ pdf2images -h
usage: pdf2images [-h] [--max-size MAX_SIZE] pdf_file output_dir

positional arguments:
  pdf_file
  output_dir

optional arguments:
  -h, --help           show this help message and exit
  --max-size MAX_SIZE  max size of either side of the image

为什么要使用另一个“pdf to image”软件包

偶尔,我需要转换一个pdf文件(通常是幻灯片或学术文件 (纸张)进入图像文件(缩略图),以便快速浏览 不下载pdf文件的阅读器。

但是,我发现所有的pdf2image解决方案都不能可靠地处理所有 pdf文件,因为许多pdf文件是非标准格式的,或者 分机。在某些情况下,它们总是坏的。

但是从好的方面来看,对于任何可能的情况,几乎有 其中一个可以成功处理。

所以我把(也就是说ensemble)组合在一起,使其在大多数情况下都能工作。

安装

如上所述,我们组合了多个pdf操作库。这是 使用的库列表:

其中wand和preview generator是可以自动 与pdf2images一起安装。但是,您必须安装xpdf和qpdf 手动操作。

在ubuntu上:

sudo apt install -y qpdf xpdf

在Arch Linux上:

sudo pacman -S qpdf xpdf

pdf2images的安装非常简单:

pip install pdf2images

稳健性

这个软件包已经成功地处理了成千上万的ARXIV文件。 (用于生成缩略图)。

胆怯

以下图像是从slideDeep Learning Book转换而来的

page-0page-1page-2page-3

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何使用SeleniumWebDriver捕获特定元素的屏幕截图而不是整个页面?   WAS 8.5中的java JAXWS异步IO异常   java Android Studio无法解析数组适配器中的符号项   swing Java在运行时添加和删除按钮   java Spring Boot 2.0。x禁用特定配置文件的安全性   java这是我的最后一个代码,我在“if(Users[B].substring(0,1)==“1”){//Find String Cut Char Function”上遇到错误   单击菜单选项后打开“活动”时发生java错误   java Tic Tac Toe NullPointerException   java如何做数学题。随机进入for循环   java Http状态404错误处理spring mvc   java循环依赖双向@OneToMany JPA关系   java我可以在不重新启动项目的情况下添加servlet吗   java在蓝色/绿色部署中如何管理共享数据库?   这是一个系统。currentTimeMillis()是Java中时间性能的最佳度量?