如何使用python2处理malencoded字符?

2024-05-14 17:38:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在获取的HTML文件包含一些HTML头中指定的编码不支持的字符: 你知道吗

我发现Shift\u-JIS编码不支持下面的代码,但实际使用了它们。我的浏览器可以正确显示这些字符。你知道吗

  • ∑n元求和U+2211
  • ゚半形片假名半浊音标记U+FF9F
  • Д西里尔文大写字母de U+414

当我试图读取这个HTML文件并解码以进行处理时,我得到UnicodeDecodeError。你知道吗

url = 'http://matsucon.net/material/dic/kao09.html'
response = urllib2.urlopen(url)
response.read().decode('shift_jis_2004')

有没有什么好的方法可以在不出错的情况下处理编码错误的HTML?你知道吗


Tags: 文件代码标记url编码shiftresponsehtml

热门问题