在Python中使用PDFTron,移除具有特定大小特征的PDF中的所有图像元素
我正在尝试使用很棒的PDFTron库在Python中从一系列PDF文档中删除大量非常小的图片。简单来说,我想创建一个新的PDF,方法是逐个检查现有PDF文件中的每个元素,然后把符合特定大小标准的元素复制到新PDF中,并保持它们的位置不变。
有没有人能给我指引一下PDFTron在Python方面的文档,帮助我完成这个任务?或者提供一个检查图片大小的示例代码?我觉得我可以搞定剩下的部分(强调一下是“觉得”)。不过,PDFTron网站上的文档并不是专门针对Python的,查找我需要的内容有点困难……
1 个回答
0
你可以从ElementEdit的示例中看到如何从文档中删除所有图片:
http://www.pdftron.com/pdfnet/samplecode.html#ElementEdit
或者提供一个示例脚本来检查图片的大小?
你能解释一下“图片大小”是什么意思吗?如果你是指在PDF页面上显示的图片尺寸,你可以使用Element.GetBBox来检查。如果你是指原始图片的尺寸,你可以使用Element.GetImageWidth和Element.GetImageHeight来查看(详细信息可以参考 http://www.pdftron.com/pdfnet/samplecode.html#ImageExtract)。另外,Image.GetImageDataSize可以告诉你图片数据的大小,以字节为单位。