如何在Python中将Word文档转换成非常简单的html?

2024-06-17 08:19:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我偶尔会收到一个Word文档,必须显示为网页。我目前正在使用Django的flatpages通过抓取m s Word生成的html内容来实现这一点。生成的html相当混乱。有没有更好的方法可以生成非常简单的html来使用Python解决这个问题?


Tags: django方法文档flatpages网页内容htmlword
3条回答

一个好的解决方案是上传到Google文档并从中导出html版本。(必须有一个用于此的api?)

它做了太多的“清理”;Beautiful Soup在路上可以用来做任何进一步的修改,视情况而定。它是这个星球上最强大和最优雅的html解析库。

这是记者公司的一个众所周知的标准。

我的超级简单应用程序WordOff有一个API用于清除Word导出的HTML中的cruft。您可以重写flatpages模型的save方法,以便在第一次保存HTML时将其通过API进行管道传输。像这样的:

import urllib
import urllib2

def decruft(html):
    data = urllib.urlencode({'html' : html})
    req = urllib2.Request('http://wordoff.org/api/clean', data)
    response = urllib2.urlopen(req)
    return response.read()

def save(self, **kwargs):
    if not self.pk: # only de-cruft when content is first added
        self.content = decruft(self.content)
    super(FlatPage, self).save(**kwargs)

我找到了这个网页:http://www.textfixer.com/html/convert-word-to-html.php

它将格式化文本转换为简单的HTML标记,保留粗体、斜体、链接和段落,但不为字体大小和字体添加标记。这正是我节省时间所需要的。

相关问题 更多 >