强制编码不良XML文件与ElementTree
一大堆XML文件的编码设置错了。应该是utf-8,但里面却到处都是latin-1的字符。处理这些内容的最佳方法是什么呢?
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
补充说明:这个问题出现在Adobe InDesign的IDML文件中,似乎“内容”部分的文本是latin-1编码,而其他部分可能是utf-8。我打算先用utf-8正常解析,然后把“内容”部分的Unicode文本重新编码成utf-8,再用latin-1重新解析。真是一团糟。