使用正则表达式拆分PDF：我该从哪里开始？

0 投票

3 回答

580 浏览

提问于 2025-04-16 17:55

我想根据一个正则表达式来拆分非常大的PDF文件，正则表达式的格式是这样的：

[A-Z][a-z]+(\s–\s)[A-Z][a-z]+

因为每次出现这个模式后，都会开始一个新的“章节”，我需要把它们拆分成单独的文档。

我不知道该从哪里开始，也不知道应该先看哪种编程语言。

任何帮助都非常感谢。

正则表达式编程语言文本处理数据解析 PDF处理文档拆分

3 个回答

一个PDF文件里面包含了各种各样的文件结构，它不仅仅是几页纸的集合。所以你不能随便把它拆开。

回答于 2025-04-16 由 Python大师

分享举报

也许PDF工具包可以帮到你，具体可以查看这个链接：http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/

回答于 2025-04-16 由 Python大师

分享举报

在字节流层面上拆分一个PDF文件是无法得到一个有效的PDF的。

既然这个问题解决了，你需要一个库（在Java中可以用Apache PDFBox，在Python中可以用pyPDF），这个库可以解析PDF文件，让你能够逐页查看文本，并应用你的正则表达式。一旦找到你需要的文本，就可以用这个库提取相关的页面范围。

回答于 2025-04-16 由 Python大师

分享举报