我的HTML文件中有’
(这是一个右引号),我想把它转换成文本(如果可能的话)。在
我尝试使用HTMLParser和beauthoulsoup,但是没有成功。在
>>> h = HTMLParser.HTMLParser()
>>> h.unescape("'")
u"'"
>>> h.unescape("’")
u'\x92' # I was hoping for a right curly quote here.
我的目标很简单:使用html输入和输出所有文本(不包含任何html代码)。在
Tags:
“右引号”不是ascii字符。
u'\x92'
是代表它的unicode字符的python表示,而不是一些“html代码”。在要在终端中正确显示它,请使用
print h.unescape("’").encode('utf-8')
(或任何终端的字符集)。在相关问题 更多 >
编程相关推荐