在Linux上将Microsoft Office文档转换为纯文本的Python方法
有没有什么推荐的方法,可以在Linux上用Python把.doc、.ppt和.xls文件转换成纯文本?其实任何转换的方法都可以。我之前考虑过用Open Office,但我希望能找到一个不需要安装Open Office的解决方案。
7 个回答
5
以前,把微软办公文档转换成HTML或其他格式的常用工具是mswordview,不过现在这个工具已经改名为vwWare。
如果你想找一个命令行工具,他们其实推荐使用AbiWord来进行转换:
AbiWord --to=txt
如果你在找一个库,可以先去wvWare的概述页面看看。他们还维护着一个关于读取微软办公文档的库和工具列表。
9
你可以通过 Python API来使用OpenOffice。
可以试试这个作为基础: http://wiki.services.openoffice.org/wiki/Odt2txt.py
11
我推荐使用命令行的方法(然后可以用Python的子进程模块来从Python运行这些工具)。
你可以在这里找到用于转换msword(catdoc)、excel(xls2csv)和ppt(catppt)的工具(源代码形式):http://vitus.wagner.pp.ru/software/catdoc/。
我对catppt的实用性不太能发表意见,但catdoc和xls2csv用起来非常好!
不过一定要先在你的系统软件库里搜索一下……比如在ubuntu上,catdoc只需要快速用apt-get命令就能安装。