读取DOCX文件时获取错误的特殊字符

0 投票

1 回答

1057 浏览

提问于 2025-04-18 14:25

我正在尝试用以下代码从一个 .docx 文件中提取文本，但问题是文本里有一些特殊字符（比如“ç”或“á”），代码没有正确读取这个文件。

try:
    from xml.etree.cElementTree import XML
except ImportError:
    from xml.etree.ElementTree import XML
import zipfile


"""
Module that extract text from MS XML Word document (.docx).
(Inspired by python-docx <https://github.com/mikemaccana/python-docx>)
"""

WORD_NAMESPACE = '{http://schemas.openxmlformats.org/wordprocessingml/2006/main}'
PARA = WORD_NAMESPACE + 'p'
TEXT = WORD_NAMESPACE + 't'


def get_docx_text(path):
    """
    Take the path of a docx file as argument, return the text in unicode.
    """
    document = zipfile.ZipFile(path)
    xml_content = document.read('word/document.xml')
    document.close()
    tree = XML(xml_content)

    paragraphs = []
    for paragraph in tree.getiterator(PARA):
        texts = [node.text
                 for node in paragraph.getiterator(TEXT)
                 if node.text]
        if texts:
            paragraphs.append(''.join(texts))

    return '\n\n'.join(paragraphs)


if __name__ == '__main__':
    doc = def_get_docx_text('teste.docx')
    print doc.split('\n')

在这个简单的例子中，原始文本是这样的：

A titulação genérica de Administração Pública

但我得到的却是这样的：

01 A titula\xe7\xe3o gen\xe9rica de Administra\xe7\xe3o

字符编码文本提取特殊字符处理 docx

1 个回答

你在打印一个列表；在Python中，容器里的内容会用repr()这个函数的输出方式来显示。u'A titula\xe7\xe3o gen\xe9rica de Administra\xe7\xe3o'是Python字符串字面量的写法，用来表示一个Unicode字符串的值；这种格式主要是为了调试方便，可以直接粘贴到Python解释器里，重新生成原来的值，而不用担心编码的问题：

>>> line = u'A titula\xe7\xe3o gen\xe9rica de Administra\xe7\xe3o'
>>> line
u'A titula\xe7\xe3o gen\xe9rica de Administra\xe7\xe3o'
>>> print line
A titulação genérica de Administração

你可以单独打印每个字符串：

for line in doc.split('\n'):
    print line

或者把字符串重新连接起来，比如用空格分开：

print ' '.join(doc.split('\n'))

回答于 2025-04-18 由 Python大师

分享举报

读取DOCX文件时获取错误的特殊字符

1 个回答

撰写回答