从PDF书籍中提取完整索引

2024-04-25 07:48:44 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一本PDF格式的书,索引很差,只有主要章节的名称。不过,书里面,有很多标题、副标题,里面每一章。 我正在寻找一个脚本(Bash、Perl、Python……无论哪个脚本),它能够解析整本书,并提供带有详细图书模式的输出。比如:

真实贫困指数

1。简介

2。这本书是给哪本的

3。这本书哪一本不是为 ...

所需索引

1。简介

1.1。这里有一些文字

1.1.1这里还有一个小主题

1.1.1.1甚至还有另一个小主题

(等等)

2。这本书是给哪本的

2.1。这里有一些文字

2.1.1此处的另一个子主题

2.1.1.1这里还有另一个小主题

(等等)

3。这本书哪一本不是为

3.1。这里有一些文字

3.1.1此处的另一个子主题

3.1.1.1这里还有另一个小主题

(等等)

我尝试了几个选项但没有成功:使用Python:PyPDF2、PyMuPDF、ising-Perl:PDF::Extract和其他

请给出一个完整的现实生活成功的例子,有什么建议吗

提前谢谢


Tags: 脚本名称bash标题主题pdf格式模式
1条回答
网友
1楼 · 发布于 2024-04-25 07:48:44

您可以使用以下正则表达式读取文件并提取索引:

r'1..*3.1.1.1 The last title'

您应该将最后一个标题替换为要包含的最后一个标题

相关问题 更多 >