使用PyPDF2检测PDF中的嵌入子集字体

from PyPDF2 import PdfFileReader import sys fontkeys = set(['/FontFile', '/FontFile2', '/FontFile3']) def walk(obj, fnt, emb): if '/BaseFont' in obj: fnt.add(obj['/BaseFont']) elif '/FontName' in obj and fontkeys.intersection(set(obj)): emb.add(obj['/FontName']) for k in obj: if hasattr(obj[k], 'keys'): walk(obj[k], fnt, emb) if type(obj) == PyPDF2.generic.ArrayObject: # You can also do ducktyping here for i in obj: if hasattr(i, 'keys'): walk(i, all_fonts, embedded_fonts) return fnt, emb if __name__ == '__main__': fname = sys.argv[1] pdf = PdfFileReader(fname) fonts = set() embedded = set() for page in pdf.pages: obj = page.getObject() f, e = walk(obj['/Resources'], fonts, embedded) fonts = fonts.union(f) embedded = embedded.union(e) unembedded = fonts - embedded print 'Font List' pprint(sorted(list(fonts))) if unembedded: print '\nUnembedded Fonts' pprint(unembedded)

1条回答

网友

1楼 · 发布于 2024-04-19 21:51:55

按照惯例，PDF文件中子集字体的PostScript名称以XXXXXX+开头，其中“X”是任何大写ASCII字符

参见PDF参考手册（1.7版）第5.3节

此外，字体描述符中的字符集或CIDSet可用于指示子集字体（两者都是可选的）

然而，所有这些都是“约定”，没有实际的保证方法来确保没有这些约定的字体实际上不是子集字体

相关问题更多 >

编程相关推荐

热门问题

热门文章