在Linux上将Microsoft Office文档转换为纯文本的Python方法

11 投票
7 回答
11679 浏览
提问于 2025-04-15 11:03

有没有什么推荐的方法,可以在Linux上用Python把.doc、.ppt和.xls文件转换成纯文本?其实任何转换的方法都可以。我之前考虑过用Open Office,但我希望能找到一个不需要安装Open Office的解决方案。

7 个回答

5

以前,把微软办公文档转换成HTML或其他格式的常用工具是mswordview,不过现在这个工具已经改名为vwWare

如果你想找一个命令行工具,他们其实推荐使用AbiWord来进行转换:

AbiWord --to=txt

如果你在找一个库,可以先去wvWare的概述页面看看。他们还维护着一个关于读取微软办公文档的库和工具列表

9

你可以通过 Python API来使用OpenOffice

可以试试这个作为基础: http://wiki.services.openoffice.org/wiki/Odt2txt.py

11

我推荐使用命令行的方法(然后可以用Python的子进程模块来从Python运行这些工具)。

你可以在这里找到用于转换msword(catdoc)、excel(xls2csv)和ppt(catppt)的工具(源代码形式):http://vitus.wagner.pp.ru/software/catdoc/

我对catppt的实用性不太能发表意见,但catdoc和xls2csv用起来非常好!

不过一定要先在你的系统软件库里搜索一下……比如在ubuntu上,catdoc只需要快速用apt-get命令就能安装。

撰写回答