将.doc/.docx转换为保留表的文本

2024-03-28 10:07:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我想把doc/docx文件转换成文本文件。我的要求是桌子要保持原样。你知道吗

我试过Python提卡。它将行转换为列

例如,输入doc/docx文件中的表

enter image description here

上表转换为如下文本

LANGUAGE
UNDERSTAND
LEARN

HINDI
YES
NO

MARATHI
YES
NO

ENGLISH
YES
NO

所需输出类似(保留表格格式)

 LANGUAGE    UNDERSTAND      LEARN  
 HINDI   YES     NO
 MARATHI     YES     NO
 ENGLISH     YES     NO

如果可能的话请告诉我。你知道吗


Tags: 文件no文本docenglishlanguagelearn表格
1条回答
网友
1楼 · 发布于 2024-03-28 10:07:24

正如@ilmiacs所建议的pandoc可以为您做这件事。
使用python您需要安装pypandoc
试验文件:

enter image description here

import pypandoc
print(pypandoc.convert_file("Untitled 1.docx", "plain+simple_tables", format="docx", extra_args=(), encoding='utf-8', outputfile=None))

给你:

enter image description here

很明显,您还可以选择使用subprocess将其放到命令行上。你知道吗

相关问题 更多 >