快速的Python PDF元数据读取器

5 投票
4 回答
6876 浏览
提问于 2025-04-16 08:19

我在找一个非常快速、轻量级的Python库,用来读取PDF的元数据。我不需要任何写入功能。如果能只加载元数据而不是整个文件,那就更好了。

我知道像Python这样的解释型语言在速度上可能不是最佳选择,但因为这个解决方案需要跨平台,并且要和现有的Python应用程序兼容,所以似乎没有太多选择。

我查看了pyPdf和其他一些库,但我理想中希望找到一个更轻便、更快速的库,适合一次处理成千上万的文件。

4 个回答

0

你有没有看到这个对类似问题的回答?它建议使用fopen这个函数,然后自己去解析一些元数据。如果你只需要这些元数据的话,你可以自己解析,这样可以让速度快到你想要的程度。

1

这是我刚刚整理的一些东西,基于Python的PDFMiner库制作的。你可以用它提取PDF文件中的“信息”和XMP类型的元数据。

3

pdfrw 可以在不需要解析整个文件的情况下读取元数据。(声明:我是 pdfrw 的作者。)例如:

>>> from pdfrw import PdfReader
>>> PdfReader('pdf_reference_1-7.pdf').Info
{'/Title': '(PDF Reference, version 1.7)',
 '/CreationDate': '(D:20061017081020Z)',
 '/Producer': '(Acrobat Distiller 7.0.5 \\(Windows\\))',
 '/Creator': '(FrameMaker 7.2)',
 '/ModDate': "(D:20061118211043-02'30')",
 '/Author': '(Adobe Systems Incorporated)',
 '/Subject': '(Adobe Portable Document Format \\(PDF\\))'}

撰写回答