使用Python将HTML表示替换为ASCII

2 投票
2 回答
4662 浏览
提问于 2025-04-17 05:54

可能重复的问题:
如何在Python字符串中解码HTML实体?

我解析了一些HTML文本。但是有些标点符号,比如撇号,被替换成了 ’。我该怎么把它们还原成 `

附注:我正在使用Python/Feedparser

谢谢

2 个回答

0

这对我有帮助

import HTMLParser

hparser=HTMLParser.HTMLParser()
new_text=hparser.unescape(raw_text)
1

PSF Wiki上有一些方法可以做到这一点。这里有一种方法:

import htmllib

def unescape(s):
    p = htmllib.HTMLParser(None)
    p.save_bgn()
    p.feed(s)
    return p.save_end()

可以查看这个链接:http://wiki.python.org/moin/EscapingHtml

撰写回答