使用PDFX Python库将PDF转换为Json

2024-05-15 18:00:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试将.PDF文件转换为JSON文件,以便更容易地从中获取信息。我可以从.PDF文件中获取元数据,但它只有第一页或看起来是.PDF的参数,但它没有列出实际的数据。下面是我的代码。这很简单,因为我还在学习如何使用图书馆,这是我能够从图书馆网站上的文档中得到的。在

import pdfx

pdf = pdfx.PDFx("Q1_Employee_Earnings_Record.pdf")
metadata = pdf.get_metadata()
reference_list = pdf.get_references()
reference_dict = pdf.get_references_as_dict()
pdf.download_pdfs("target-directory")

以下是我的输出:

^{pr2}$

如您所见,共有26页,但其中包含的页面和信息不会输出。有没有办法让我上面的代码输出每一页的所有数据?我知道数据是可以访问的,因为我已经用PDFminer将这个精确的.PDF转换成文本文件。在


Tags: 文件数据代码json参数getpdf图书馆
1条回答
网友
1楼 · 发布于 2024-05-15 18:00:53

source code的扫描来看,您似乎可以直接调用pdf.get_text()。在

这个库的重点似乎是元数据。如果将文本全部作为一个字符串获取还不够,那么其他PDF库可能会为您提供对文本更细粒度的访问。在

相关问题 更多 >