用正则表达式在Python中去除字符串中的" '

2 投票
1 回答
3225 浏览
提问于 2025-04-17 01:39

我正在使用以下代码从RSS源获取我的结果:

try:  
desc = item.xpath('description')[0].text
if date is not None:
    desc =date +"\n"+"\n"+desc
except:
    desc = None

但是有时候,描述中会包含一些Unicode的HTML字符,如下所示:

从XML中提取的文本看起来像是 " 和 ' 还有其他的 &...; 之类的东西

在显示内容时,我不想让这些字符出现。有没有什么方法可以用正则表达式去掉这些HTML标签呢?

1 个回答

1

我用了一种叫“解除XML转义”的东西,不知道对你有没有帮助。

可以看看这个链接: http://wiki.python.org/moin/EscapingXml

from xml.sax.saxutils import unescape

unescape("< & >")

'< & >'




unescape("&apos; &quot;", {"&apos;": "'", "&quot;": '"'})

'\' "'

补充

刚看到这个,可能会很有趣。(没测试过): 用urllib解除转义

撰写回答