从PDF书籍中提取完整索引 - 问答 - Python中文网

从PDF书籍中提取完整索引

2024-04-25 07:48:44 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一本PDF格式的书，索引很差，只有主要章节的名称。不过，书里面，有很多标题、副标题，里面每一章。我正在寻找一个脚本（Bash、Perl、Python……无论哪个脚本），它能够解析整本书，并提供带有详细图书模式的输出。比如：

真实贫困指数

1。简介

2。这本书是给哪本的

3。这本书哪一本不是为 ...

所需索引

1。简介

1.1。这里有一些文字

1.1.1这里还有一个小主题

1.1.1.1甚至还有另一个小主题

（等等）

2。这本书是给哪本的

2.1。这里有一些文字

2.1.1此处的另一个子主题

2.1.1.1这里还有另一个小主题

（等等）

3。这本书哪一本不是为

3.1。这里有一些文字

3.1.1此处的另一个子主题

3.1.1.1这里还有另一个小主题

（等等）

我尝试了几个选项但没有成功：使用Python:PyPDF2、PyMuPDF、ising-Perl:PDF:：Extract和其他

请给出一个完整的现实生活成功的例子，有什么建议吗

提前谢谢

Tags：脚本名称 bash 标题主题 pdf 格式模式

1条回答

网友
1楼 · 发布于 2024-04-25 07:48:44

您可以使用以下正则表达式读取文件并提取索引：
r'1..*3.1.1.1 The last title'
您应该将最后一个标题替换为要包含的最后一个标题

相关问题更多 >

编程相关推荐

热门问题

热门文章