使用正则表达式拆分PDF:我该从哪里开始?
我想根据一个正则表达式来拆分非常大的PDF文件,正则表达式的格式是这样的:
[A-Z][a-z]+(\s–\s)[A-Z][a-z]+
因为每次出现这个模式后,都会开始一个新的“章节”,我需要把它们拆分成单独的文档。
我不知道该从哪里开始,也不知道应该先看哪种编程语言。
任何帮助都非常感谢。
3 个回答
0
一个PDF文件里面包含了各种各样的文件结构,它不仅仅是几页纸的集合。所以你不能随便把它拆开。
1
也许PDF工具包可以帮到你,具体可以查看这个链接:http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
1
在字节流层面上拆分一个PDF文件是无法得到一个有效的PDF的。
既然这个问题解决了,你需要一个库(在Java中可以用Apache PDFBox,在Python中可以用pyPDF),这个库可以解析PDF文件,让你能够逐页查看文本,并应用你的正则表达式。一旦找到你需要的文本,就可以用这个库提取相关的页面范围。