如何在Python中将u'\x96'转换为u'–
我正在把一个旧的Wordpress博客的内容转移到Mezzanine。我得到了一个数据库的json备份,但里面的帖子满是一些特殊字符,比如这样:\x96
,而其他的html内容看起来是正常的。
如果我手动把斜杠\
替换成&#
,然后加上一个分号,这个字符就能正确显示了。
也就是说,把\x96
变成–
。
这是把转义的UTF-8(十六进制)转换成HTML实体(十六进制)。
我想知道怎么用Python来实现这个操作?
1 个回答
1
如果 –
也是可以接受的,你可以使用:
>>> u'\x96'.encode('ascii', 'xmlcharrefreplace')
'–'
这个在 文档1 中也有提到。
1(虽然说得不是很清楚)...