使用PDFX Python库将PDF转换为Json

2024-05-15 18:00:53 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试将.PDF文件转换为JSON文件，以便更容易地从中获取信息。我可以从.PDF文件中获取元数据，但它只有第一页或看起来是.PDF的参数，但它没有列出实际的数据。下面是我的代码。这很简单，因为我还在学习如何使用图书馆，这是我能够从图书馆网站上的文档中得到的。在

import pdfx

pdf = pdfx.PDFx("Q1_Employee_Earnings_Record.pdf")
metadata = pdf.get_metadata()
reference_list = pdf.get_references()
reference_dict = pdf.get_references_as_dict()
pdf.download_pdfs("target-directory")

以下是我的输出：

^{pr2}$

如您所见，共有26页，但其中包含的页面和信息不会输出。有没有办法让我上面的代码输出每一页的所有数据？我知道数据是可以访问的，因为我已经用PDFminer将这个精确的.PDF转换成文本文件。在

Tags：文件数据代码 json 参数 get pdf 图书馆

1条回答

网友

1楼 · 发布于 2024-05-15 18:00:53

从source code的扫描来看，您似乎可以直接调用pdf.get_text()。在

这个库的重点似乎是元数据。如果将文本全部作为一个字符串获取还不够，那么其他PDF库可能会为您提供对文本更细粒度的访问。在

使用PDFX Python库将PDF转换为Json

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用PDFX Python库将PDF转换为Json

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >