我正在获取的HTML文件包含一些HTML头中指定的编码不支持的字符: 你知道吗
我发现Shift\u-JIS编码不支持下面的代码,但实际使用了它们。我的浏览器可以正确显示这些字符。你知道吗
当我试图读取这个HTML文件并解码以进行处理时,我得到UnicodeDecodeError。你知道吗
url = 'http://matsucon.net/material/dic/kao09.html'
response = urllib2.urlopen(url)
response.read().decode('shift_jis_2004')
有没有什么好的方法可以在不出错的情况下处理编码错误的HTML?你知道吗
试试这个:
相关问题 更多 >
编程相关推荐