xml.etree.ElementTree 和 unicode 查找文本
我正在尝试使用xml.etree.ElementTree模块中的iterparse来解析Medline的xml文档。一切都运行得很好,除了有些文本包含非ascii字符。我没有找到使用findtext处理unicode的方法。有什么建议吗?
2 个回答
0
这篇帖子非常有用,补充了上面的回答。
2
你有没有试过用utf8编码来打开这个文件呢?
fd = open('some.xml', mode='r', encoding='utf-8')
xml.etree.ElementTree.iterparse(fd)
或者可以使用解码的方法:
fd = open('some.xml', mode='r')
sio = StringIO(fd.read().decode("utf-8"))
xml.etree.ElementTree.iterparse(sio)