用Python替换PDF文档中的图像?
我们生成的PDF文档里有存储在内容管理系统(CMS)中的RGB图片。
在处理PDF的过程中,有时候我们需要把这些RGB图片转换成CMYK格式(为了打印制作)。
用Python结合LittleCMS和PyLittleCMS这个库,以及RGB输入和CMYK输出设备的ICC颜色配置文件,似乎可以实现RGB到CMYK的转换。
不过,有没有什么Python的办法可以遍历PDF里的图片,提取出图片数据,然后用处理好的CMYK版本替换掉它们呢?
1 个回答
0
我觉得没有完全免费的Python工具能做到你想要的功能。这里有一些选择:
PoDoFo虽然没有成熟的Python接口,但它可以读取和写入PDF文件,还支持PDF中的图片和颜色空间。
PDFMiner是一个纯Python的PDF解析器,但它对图片的处理不多。这是一个起点,但要实现你想要的功能可能需要花费不少功夫。
ReportLab的商业版本可能能满足你的需求,特别是它的PageCatcher工具;我已经有几年没用过了,但你可以去了解一下。(免费的ReportLab只能写PDF,不能读取PDF。)