快速的Python PDF元数据读取器

5 投票

4 回答

6876 浏览

数据工程师

提问于 2025-04-16 08:19

我在找一个非常快速、轻量级的Python库，用来读取PDF的元数据。我不需要任何写入功能。如果能只加载元数据而不是整个文件，那就更好了。

我知道像Python这样的解释型语言在速度上可能不是最佳选择，但因为这个解决方案需要跨平台，并且要和现有的Python应用程序兼容，所以似乎没有太多选择。

我查看了pyPdf和其他一些库，但我理想中希望找到一个更轻便、更快速的库，适合一次处理成千上万的文件。

跨平台 pdf 文件处理速度优化元数据轻量级库

4 个回答

你有没有看到这个对类似问题的回答？它建议使用fopen这个函数，然后自己去解析一些元数据。如果你只需要这些元数据的话，你可以自己解析，这样可以让速度快到你想要的程度。

回答于 2025-04-16 由 Python大师

分享举报

这是我刚刚整理的一些东西，基于Python的PDFMiner库制作的。你可以用它提取PDF文件中的“信息”和XMP类型的元数据。

回答于 2025-04-16 由 Python大师

分享举报

pdfrw 可以在不需要解析整个文件的情况下读取元数据。（声明：我是 pdfrw 的作者。）例如：

>>> from pdfrw import PdfReader
>>> PdfReader('pdf_reference_1-7.pdf').Info
{'/Title': '(PDF Reference, version 1.7)',
 '/CreationDate': '(D:20061017081020Z)',
 '/Producer': '(Acrobat Distiller 7.0.5 \\(Windows\\))',
 '/Creator': '(FrameMaker 7.2)',
 '/ModDate': "(D:20061118211043-02'30')",
 '/Author': '(Adobe Systems Incorporated)',
 '/Subject': '(Adobe Portable Document Format \\(PDF\\))'}

回答于 2025-04-16 由 Python大师

分享举报

快速的Python PDF元数据读取器

4 个回答

撰写回答