我正在用Beautiful Soup 3解析一些HTML,但它包含Beautiful Soup 3不会自动为我解码的HTML实体:
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup("<p>£682m</p>")
>>> text = soup.find("p").string
>>> print text
£682m
如何解码text
中的HTML实体,以获得"£682m"
而不是"£682m"
。
Tags:
靓汤处理实体转换。在BeautifulSoup3中,需要指定
convertEntities
构造函数的BeautifulSoup
参数(参见归档文档的'Entity Conversion'部分)。在靓汤4中,实体被自动解码。靓汤3
靓汤4
Python3.4+
使用^{} :
仅供参考
html.parser.HTMLParser.unescape
已被弃用,并且was supposed to be removed in 3.5,尽管它被错误地保留在中。它很快就会从语言中删除。Python2.6-3.3
您可以使用标准库中的
HTMLParser.unescape()
:您还可以使用^{} 兼容库来简化导入:
可以使用w3lib.html库中的replace_实体
相关问题 更多 >
编程相关推荐