从PyPDF2 getOutlines（）解析页码

2024-04-17 23:42:30 发布

男 | 程序猿一只，喜欢编程写python代码。

我在用PyPDF 2处理一些PDF文件。我希望从包含outline/ToC数据的文件中提取outline/ToC数据，基本上是为了了解给定页面对应于文档的哪个部分。你知道吗

According to the docs，PdfFileReader的getOutlines方法应返回Destination对象的嵌套列表。然后，according to the docs，每一个都应该有一个page（int）属性。你知道吗

不幸的是，我试过的文件不是这样的。相反，我得到的是indirectObjects，它解析为PyPDF2.generic.DictionaryObjects。我不知道如何得到我期望的Destination对象，或者如何从我得到的indirectObject中提取有意义的页码。你知道吗

最终目标是，给定大纲的页码，能够将该页码传递给getPage()，然后调用extractText()。你知道吗

非常感谢您的指导。谢谢您！你知道吗

Tags：文件 the to 数据对象文档 docs pdf

0条回答

目前没有回答