用正则表达式在Python中去除字符串中的" '

2 投票

1 回答

3225 浏览

提问于 2025-04-17 01:39

我正在使用以下代码从RSS源获取我的结果：

try:  
desc = item.xpath('description')[0].text
if date is not None:
    desc =date +"\n"+"\n"+desc
except:
    desc = None

但是有时候，描述中会包含一些Unicode的HTML字符，如下所示：

从XML中提取的文本看起来像是 " 和 ' 还有其他的 &...; 之类的东西

在显示内容时，我不想让这些字符出现。有没有什么方法可以用正则表达式去掉这些HTML标签呢？

正则表达式字符串处理 unicode 数据清洗 RSS源 html字符

1 个回答

我用了一种叫“解除XML转义”的东西，不知道对你有没有帮助。

from xml.sax.saxutils import unescape

unescape("&lt; &amp; &gt;")

'< & >'




unescape("&apos; &quot;", {"&apos;": "'", "&quot;": '"'})

'\' "'

补充

刚看到这个，可能会很有趣。（没测试过）: 用urllib解除转义

回答于 2025-04-17 由 Python大师

分享举报