如何使用python2处理malencoded字符？

2024-05-14 17:38:23 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在获取的HTML文件包含一些HTML头中指定的编码不支持的字符：你知道吗

我发现Shift\u-JIS编码不支持下面的代码，但实际使用了它们。我的浏览器可以正确显示这些字符。你知道吗

当我试图读取这个HTML文件并解码以进行处理时，我得到UnicodeDecodeError。你知道吗

url = 'http://matsucon.net/material/dic/kao09.html'
response = urllib2.urlopen(url)
response.read().decode('shift_jis_2004')

有没有什么好的方法可以在不出错的情况下处理编码错误的HTML？你知道吗

Tags：文件代码标记 url 编码 shift response html

1条回答

网友

1楼 · 发布于 2024-05-14 17:38:23

试试这个：

response.read().decode('shift_jis_2004',errors='ignore')