从pdf或djvu文档中提取内容部分的简单脚本

pdf-contents-extractor的Python项目详细描述


PDF内容提取程序

从pdf或djvu文档中提取文本内容(用于handyoutliner)

需要:

  • 对于pdf,pytesseract和pymupdf(都可以通过pip轻松安装)
  • 对于djvu,路径中可用的ddjvu命令

在终端中安装后键入:extract_contents/path/filename startpage lastpage (例如:extract_contents example.djvu 3 6) 其中startpage和lastpage是内容页的页码。 脚本自动识别格式(pdf或djvu)

默认的Tesseract语言是英语。可以使用-l标志设置另一种语言(例如,英语和荷兰语为:-l eng+nld),但需要安装正确的tesseract语言包。

有关其他选项和帮助,请键入:extract_contents-h

可以在文本编辑器中进一步编辑内容,并使用handyoutliner(http://handyoutlinerfo.sourceforge.net/)将其添加到pdf文件中

关于DJVU的说明

对于djvu文件,命令djvutxt在linux上通常已经运行良好(如果ocr层可用)。示例用法:djvutxt -page=3-6 example.pdf contents.txt

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java将列表a作为从流收集的映射中的值   java SVN Eclipse忽略所有用户的文件夹   @PathVariable类型不匹配的java配置错误页   java在应用程序中使用Oracle数据库需要什么?   java无法确定用户何时为我的自定义异常输入数字小于0的问题   java如何通过软件导航网站?   java将JFace TableViewer添加到SWT表   Java中“field”和“this.field”的区别   java战舰代码不工作   java如何设置可执行IE 11驱动程序的路径   java这个程序如何一步一步地计算两个区间之间的阿姆斯特朗数?   JavaRestlet:在过滤器中使用转换器服务   Tensorflow:如何在java中使用python训练的语音识别模型   EclipseJava。util。使用迭代器从HashMap获取ArrayList时出现NoTouchElementException   Java Swing启动屏幕配置错误   为什么MySQL浮点与Java浮点不同?