用正则表达式在Python中去除字符串中的" '
我正在使用以下代码从RSS源获取我的结果:
try:
desc = item.xpath('description')[0].text
if date is not None:
desc =date +"\n"+"\n"+desc
except:
desc = None
但是有时候,描述中会包含一些Unicode的HTML字符,如下所示:
从XML中提取的文本看起来像是 " 和 ' 还有其他的 &...; 之类的东西
在显示内容时,我不想让这些字符出现。有没有什么方法可以用正则表达式去掉这些HTML标签呢?
1 个回答
1
我用了一种叫“解除XML转义”的东西,不知道对你有没有帮助。
可以看看这个链接: http://wiki.python.org/moin/EscapingXml
from xml.sax.saxutils import unescape
unescape("< & >")
'< & >'
unescape("' "", {"'": "'", """: '"'})
'\' "'
补充
刚看到这个,可能会很有趣。(没测试过): 用urllib解除转义