如何在Python中提取PDF的标题、作者、创建日期

2024-04-29 07:00:42 发布

您现在位置:Python中文网/ 问答频道 /正文

我在本地管理论文,并以“creationdate_authors_title.PDF”的形式重命名每个PDF文件。因此,需要从PDF文件中自动提取每篇论文的标题、作者、创建日期

我已经使用包pdfminer编写了一个python脚本来提取信息。但是,对于某些文件,在解析它们之后,使用PDFDocument存储在字典doc.info[0]中的文件信息可能不包含某些键,例如“Author”,或者这些键的值为空

我想知道如何使用“提取页面”等功能直接从PDF文件中查找所需信息,如论文标题。或者,更一般地说,我如何才能准确有效地提取我需要的信息

任何暗示都将不胜感激!非常感谢


Tags: 文件脚本信息标题doc字典pdftitle