Python pdf-contents-extractor包_程序模块 - PyPI

从pdf或djvu文档中提取内容部分的简单脚本

pdf-contents-extractor的Python项目详细描述

PDF内容提取程序

从pdf或djvu文档中提取文本内容（用于handyoutliner）

需要：

对于pdf，pytesseract和pymupdf（都可以通过pip轻松安装）
对于djvu，路径中可用的ddjvu命令

在终端中安装后键入：extract_contents/path/filename startpage lastpage （例如：extract_contents example.djvu 3 6）其中startpage和lastpage是内容页的页码。脚本自动识别格式（pdf或djvu）

默认的Tesseract语言是英语。可以使用-l标志设置另一种语言（例如，英语和荷兰语为：-l eng+nld），但需要安装正确的tesseract语言包。

有关其他选项和帮助，请键入：extract_contents-h

可以在文本编辑器中进一步编辑内容，并使用handyoutliner（http://handyoutlinerfo.sourceforge.net/）将其添加到pdf文件中

关于DJVU的说明
对于djvu文件，命令djvutxt在linux上通常已经运行良好（如果ocr层可用）。示例用法：`djvutxt -page=3-6 example.pdf contents.txt`
标签：
文档
命令
脚本
内容
pdf
contents
extract
extractor
djvu
欢迎加入QQ群-->： 979659372

pdf-contents-extractor 0.7

pdf-contents-extractor的Python项目详细描述

PDF内容提取程序

关于DJVU的说明
对于djvu文件，命令djvutxt在linux上通常已经运行良好（如果ocr层可用）。示例用法：`djvutxt -page=3-6 example.pdf contents.txt`
标签：
文档
命令
脚本
内容
pdf
contents
extract
extractor
djvu
欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

dsnd-distributions123

distributions-dboland77

appsync-gremlin

font-converter

pyjjzhktools

lonny-worker

sheetpakage

anonymouse-lib

qube

johnbucmoore-package

dspg

yolo-v4

arpyino

stats-distribution

bitcoin-spv-p

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

pdf-contents-extractor 0.7

pdf-contents-extractor的Python项目详细描述

PDF内容提取程序

关于DJVU的说明 对于djvu文件，命令djvutxt在linux上通常已经运行良好（如果ocr层可用）。示例用法：djvutxt -page=3-6 example.pdf contents.txt标签：文档命令脚本内容pdfcontentsextractextractordjvu欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

dsnd-distributions123

distributions-dboland77

appsync-gremlin

font-converter

pyjjzhktools

lonny-worker

sheetpakage

anonymouse-lib

qube

johnbucmoore-package

dspg

yolo-v4

arpyino

stats-distribution

bitcoin-spv-p

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

关于DJVU的说明
对于djvu文件，命令djvutxt在linux上通常已经运行良好（如果ocr层可用）。示例用法：`djvutxt -page=3-6 example.pdf contents.txt`
标签：
文档
命令
脚本
内容
pdf
contents
extract
extractor
djvu
欢迎加入QQ群-->： 979659372

导航栏

项目链接

标签