Python中Unicode HTML转换为ASCII

2 投票
2 回答
3648 浏览
提问于 2025-04-16 20:40

可能重复的问题:
用Python解码字符串中的字符

我在Python中有一个包含unicode HTML的字符串,它的开头是:\u003ctable>\u003ctr。我需要把它转换成ascii格式,这样我才能用BeautifulSoup来解析它。不过,Python的编码和解码功能似乎没有任何效果;无论我怎么尝试,我得到的都是原始字符串。我对Python和unicode都很陌生,所以希望能得到一些帮助。

2 个回答

0

我完全不知道你在说什么。我怀疑我不是唯一一个这样想的人。

>>> s = BeautifulSoup.BeautifulSoup(u'<html><body>\u003ctable>\u003ctr</body></html>')
>>> s
<html><body><table><tr></tr></table></body></html>
4

首先使用

s.decode("unicode-escape")

来解码这些HTML数据(我不知道你是怎么得到这些奇怪字符的)。

撰写回答