Python中Unicode HTML转换为ASCII
可能重复的问题:
用Python解码字符串中的字符
我在Python中有一个包含unicode HTML的字符串,它的开头是:\u003ctable>\u003ctr
。我需要把它转换成ascii格式,这样我才能用BeautifulSoup来解析它。不过,Python的编码和解码功能似乎没有任何效果;无论我怎么尝试,我得到的都是原始字符串。我对Python和unicode都很陌生,所以希望能得到一些帮助。
2 个回答
0
我完全不知道你在说什么。我怀疑我不是唯一一个这样想的人。
>>> s = BeautifulSoup.BeautifulSoup(u'<html><body>\u003ctable>\u003ctr</body></html>')
>>> s
<html><body><table><tr></tr></table></body></html>
4
首先使用
s.decode("unicode-escape")
来解码这些HTML数据(我不知道你是怎么得到这些奇怪字符的)。