Python中文
首页
教程
问答
标签
搜索
登录
注册
ElementTree的替代XML解析器,以缓解UTF-8的困境?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在用elementtree.parse()函数解析一些XML。它可以工作,除了一些utf-8字符(128以上的单字节字符)。我看到默认的解析器是基于expat的XMLTreeBuilder。</p> <p>是否有一个替代的解析器,我可以使用它可能不那么严格,并允许utf-8字符?</p> <p>这是我在使用默认解析器时遇到的错误:</p> <pre><code>ExpatError: not well-formed (invalid token): line 311, column 190 </code></pre> <p>导致这种情况的字符是单字节x92(十六进制)。我不确定这是不是一个有效的utf-8字符。但最好能处理它,因为大多数文本编辑器都将其显示为:</p> <p><strong>编辑</strong>:字符的上下文是:cant,这里我假设它是一个奇特的使徒,但是在十六进制编辑器中,相同的顺序是:63616e9274</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>字节0x92永远不能作为UTF-8字符的第一个字节<em>有效。但是,它可以作为后续字节有效。有关有效字节序列表,请参见<a href="http://www.cl.cam.ac.uk/~mgk25/unicode.html#utf-8" rel="nofollow noreferrer">this UTF-8 guide</a>。</p> <p>你能告诉我们0x92周围是什么字节吗?XML声明是否包含字符编码?</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
将Pandas数据帧转换为PyTorch张量?
3 回答
将Pandas数据帧转换为scipy稀疏矩阵
7 回答
将Pandas数据帧转换为Spark Datafram时出现问题
3 回答
将pandas数据帧转换为spark DataFram时出错
10 回答
将Pandas数据帧转换为spark datafram时收到错误
4 回答
将Pandas数据帧转换为Spark数据帧
2 回答
将Pandas数据帧转换为Tensorflow数据
10 回答
将Pandas数据帧转换为tkinter obj
4 回答
将pandas数据帧转换为XML
2 回答
将Pandas数据帧转换为值sql语句
8 回答
将pandas数据帧转换为元组
6 回答
将pandas数据帧转换为元组列表
3 回答
将pandas数据帧转换为元组列表并删除所有pandas数据类型
4 回答
将pandas数据帧转换为具有头和数据类型的numpy数组
9 回答
将pandas数据帧转换为内存中的拼花地板,并将其加载到Python中的Hadoop中
10 回答
将pandas数据帧转换为内存中类似文件的对象?
7 回答
将Pandas数据帧转换为内存功能(&F)
1 回答
将pandas数据帧转换为列表列表
7 回答
将pandas数据帧转换为列表列表以输入到RNN
6 回答
将Pandas数据帧转换为单行DataFram
5 回答