使用Python将HTML表示替换为ASCII
可能重复的问题:
如何在Python字符串中解码HTML实体?
我解析了一些HTML文本。但是有些标点符号,比如撇号,被替换成了 ’
。我该怎么把它们还原成 `
附注:我正在使用Python/Feedparser
谢谢
2 个回答
0
这对我有帮助
import HTMLParser
hparser=HTMLParser.HTMLParser()
new_text=hparser.unescape(raw_text)
1
PSF Wiki上有一些方法可以做到这一点。这里有一种方法:
import htmllib
def unescape(s):
p = htmllib.HTMLParser(None)
p.save_bgn()
p.feed(s)
return p.save_end()