我在用PyPDF 2处理一些PDF文件。我希望从包含outline/ToC数据的文件中提取outline/ToC数据,基本上是为了了解给定页面对应于文档的哪个部分。你知道吗
According to the docs,PdfFileReader
的getOutlines
方法应返回Destination
对象的嵌套列表。然后,according to the docs,每一个都应该有一个page
(int)属性。你知道吗
不幸的是,我试过的文件不是这样的。相反,我得到的是indirectObject
s,它解析为PyPDF2.generic.DictionaryObject
s。我不知道如何得到我期望的Destination
对象,或者如何从我得到的indirectObject
中提取有意义的页码。你知道吗
最终目标是,给定大纲的页码,能够将该页码传递给getPage()
,然后调用extractText()
。你知道吗
非常感谢您的指导。谢谢您!你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐