我有一本PDF格式的书,索引很差,只有主要章节的名称。不过,书里面,有很多标题、副标题,里面每一章。 我正在寻找一个脚本(Bash、Perl、Python……无论哪个脚本),它能够解析整本书,并提供带有详细图书模式的输出。比如:
真实贫困指数
1。简介
2。这本书是给哪本的
3。这本书哪一本不是为 ...
所需索引
1。简介
1.1。这里有一些文字
1.1.1这里还有一个小主题
1.1.1.1甚至还有另一个小主题
(等等)
2。这本书是给哪本的
2.1。这里有一些文字
2.1.1此处的另一个子主题
2.1.1.1这里还有另一个小主题
(等等)
3。这本书哪一本不是为
3.1。这里有一些文字
3.1.1此处的另一个子主题
3.1.1.1这里还有另一个小主题
(等等)
我尝试了几个选项但没有成功:使用Python:PyPDF2、PyMuPDF、ising-Perl:PDF::Extract和其他
请给出一个完整的现实生活成功的例子,有什么建议吗
提前谢谢
您可以使用以下正则表达式读取文件并提取索引:
您应该将最后一个标题替换为要包含的最后一个标题
相关问题 更多 >
编程相关推荐