从当前目录递归更改文件和目录的权限和所有者
pdf2odt的Python项目详细描述
什么是pdf2odt
这是一个将pdf转换为libreoffice writer文档的脚本。PDF页面转换为图像。它使用来自poppler的pdftoppm进行转换
链接
在Linux中安装和使用
如果使用gentoo,可以在https://github.com/Turulomio/myportage/tree/master/dev-python/pdf2odt中找到ebuild
要在其他发行版中安装,必须安装poppler才能使用pdftoppm命令。您可以使用您的分发包管理器
然后键入:
pip安装pdf2odt
安装后,您可以使用它键入:
pdf2odt–pdf doc.pdf doc.odt
如果需要OCR,则必须安装Tesseract应用程序,然后才能运行
pdf2odt–pdf doc.pdf–tesseract doc.odt
在Windows中安装和使用
您需要安装python。它适用于最新版本。不要忘记将python可执行文件添加到path,并在安装过程中标记它。
然后键入:
pip安装pdf2odt
现在您必须从https://blog.alivate.com.au/poppler-windows/下载poppler for windows。解压缩下载的文件并将其安装目录添加到windows环境路径。在这里,您可以使用https://www.architectryan.com/2018/03/17/add-to-the-path-on-windows-10/
现在您可以使用它在windows shell中键入:
pdf2odt–pdf doc.pdf doc.odt
如果你想要ocr,你必须从mhttps://github.com/UB-Mannheim/tesseract/wiki下载tesseract for windows。然后还必须将其安装目录添加到windows环境路径中。
pdf2odt–pdf doc.pdf–tesseract doc.odt
依赖关系
- https://www.python.org/,作为主要的编程语言。
- https://pypi.org/project/colorama/,给控制台加颜色。
- https://pypi.org/project/pillow/,管理png图像。
- https://github.com/turulomio/officegenerator/,生成odt文件。
- https://poppler.freedesktop.org/,使用pdftoppm将pdf转换为图像。
- https://blog.alivate.com.au/poppler-windows/在windows中安装poppler。
- https://pypi.org/project/tqdm,显示漂亮的进度条。
- https://github.com/tesseract-ocr/,用于ocr支持。
更改日志
0.6.0
- Tesseract language is now showed in output
- Now pdf2odt validates PDF document
0.5.0
- Now pdf2odt detects if tesseract language selected is supported.
0.4.0
- Added OCR support with tesseract
- Now uses process concurrency and shows a progress bar
0.3.0
- Fixed problem with white spaces paths in windows.
- Improved metadata information.
0.2.0
- Now works on Windows with popper for windows installation
0.1.0
- Basic functionality