从pdf或djvu文档中提取内容部分的简单脚本
pdf-contents-extractor的Python项目详细描述
PDF内容提取程序
从pdf或djvu文档中提取文本内容(用于handyoutliner)
需要:
- 对于pdf,pytesseract和pymupdf(都可以通过pip轻松安装)
- 对于djvu,路径中可用的ddjvu命令
在终端中安装后键入:extract_contents/path/filename startpage lastpage
(例如:extract_contents example.djvu 3 6
)
其中startpage和lastpage是内容页的页码。
脚本自动识别格式(pdf或djvu)
默认的Tesseract语言是英语。可以使用-l标志设置另一种语言(例如,英语和荷兰语为:-l eng+nld
),但需要安装正确的tesseract语言包。
有关其他选项和帮助,请键入:extract_contents-h
可以在文本编辑器中进一步编辑内容,并使用handyoutliner(http://handyoutlinerfo.sourceforge.net/)将其添加到pdf文件中
关于DJVU的说明
对于djvu文件,命令djvutxt在linux上通常已经运行良好(如果ocr层可用)。示例用法:djvutxt -page=3-6 example.pdf contents.txt