用Python从Word文档中提取XML的困难

2024-04-23 06:40:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图使用Python从Word文档中提取XML,该文档使用this网页上的代码。在

我首先创建了一个名为test.docx的测试文档。然后我运行了以下代码:

import zipfile
from lxml import etree

def getXml(docxFilename):
    zip = zipfile.ZipFile(open(docxFilename))
    xmlContent = zip.read("word/document.xml")
    return xmlContent

def getXmlTree(xmlContent):
    return etree.fromstring(xmlContent)

testXml = getXml("test.docx")
print(getXmlTree(testXml))

运行此代码会产生错误消息“File is not a zip File”。我做错什么了?在


Tags: 代码文档testimportreturndefzipetree