xml.etree.ElementTree 和 unicode 查找文本

2 投票
2 回答
1289 浏览
提问于 2025-04-17 05:34

我正在尝试使用xml.etree.ElementTree模块中的iterparse来解析Medline的xml文档。一切都运行得很好,除了有些文本包含非ascii字符。我没有找到使用findtext处理unicode的方法。有什么建议吗?

2 个回答

0

这篇帖子非常有用,补充了上面的回答。

在Python中从gzip文件读取utf-8字符

2

你有没有试过用utf8编码来打开这个文件呢?

fd = open('some.xml', mode='r', encoding='utf-8')
xml.etree.ElementTree.iterparse(fd)

或者可以使用解码的方法:

fd = open('some.xml', mode='r')
sio = StringIO(fd.read().decode("utf-8"))
xml.etree.ElementTree.iterparse(sio)

撰写回答