使用正则表达式拆分PDF:我该从哪里开始?

0 投票
3 回答
580 浏览
提问于 2025-04-16 17:55

我想根据一个正则表达式来拆分非常大的PDF文件,正则表达式的格式是这样的:

[A-Z][a-z]+(\s–\s)[A-Z][a-z]+

因为每次出现这个模式后,都会开始一个新的“章节”,我需要把它们拆分成单独的文档。

我不知道该从哪里开始,也不知道应该先看哪种编程语言。

任何帮助都非常感谢。

3 个回答

0

一个PDF文件里面包含了各种各样的文件结构,它不仅仅是几页纸的集合。所以你不能随便把它拆开。

1

也许PDF工具包可以帮到你,具体可以查看这个链接:http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/

1

在字节流层面上拆分一个PDF文件是无法得到一个有效的PDF的。

既然这个问题解决了,你需要一个库(在Java中可以用Apache PDFBox,在Python中可以用pyPDF),这个库可以解析PDF文件,让你能够逐页查看文本,并应用你的正则表达式。一旦找到你需要的文本,就可以用这个库提取相关的页面范围。

撰写回答