Python中Unicode HTML转换为ASCII

2 投票

2 回答

3648 浏览

提问于 2025-04-16 20:40

可能重复的问题：
用Python解码字符串中的字符

我在Python中有一个包含unicode HTML的字符串，它的开头是：\u003ctable>\u003ctr。我需要把它转换成ascii格式，这样我才能用BeautifulSoup来解析它。不过，Python的编码和解码功能似乎没有任何效果；无论我怎么尝试，我得到的都是原始字符串。我对Python和unicode都很陌生，所以希望能得到一些帮助。

字符串处理 unicode 数据解析 HTML 文本转换 beautifulsoup 编码解码 ascii

2 个回答

我完全不知道你在说什么。我怀疑我不是唯一一个这样想的人。

>>> s = BeautifulSoup.BeautifulSoup(u'<html><body>\u003ctable>\u003ctr</body></html>')
>>> s
<html><body><table><tr></tr></table></body></html>

回答于 2025-04-16 由 Python大师

分享举报

首先使用

s.decode("unicode-escape")

来解码这些HTML数据（我不知道你是怎么得到这些奇怪字符的）。

回答于 2025-04-16 由 Python大师

分享举报

Python中Unicode HTML转换为ASCII

2 个回答

撰写回答