使用Python将HTML表示替换为ASCII

2 投票

2 回答

4662 浏览

提问于 2025-04-17 05:54

可能重复的问题：
如何在Python字符串中解码HTML实体？

我解析了一些HTML文本。但是有些标点符号，比如撇号，被替换成了 ’。我该怎么把它们还原成 `

附注：我正在使用Python/Feedparser

谢谢

character encoding html entities HTML feedparser ascii string manipulation data transformation text parsing

2 个回答

这对我有帮助

import HTMLParser

hparser=HTMLParser.HTMLParser()
new_text=hparser.unescape(raw_text)

回答于 2025-04-17 由 Python大师

分享举报

PSF Wiki上有一些方法可以做到这一点。这里有一种方法：

import htmllib

def unescape(s):
    p = htmllib.HTMLParser(None)
    p.save_bgn()
    p.feed(s)
    return p.save_end()

回答于 2025-04-17 由 Python大师

分享举报