如何在Python中将u'\x96'转换为u'–

0 投票
1 回答
2688 浏览
提问于 2025-04-18 01:17

我正在把一个旧的Wordpress博客的内容转移到Mezzanine。我得到了一个数据库的json备份,但里面的帖子满是一些特殊字符,比如这样:\x96,而其他的html内容看起来是正常的。

如果我手动把斜杠\替换成&#,然后加上一个分号,这个字符就能正确显示了。

也就是说,把\x96变成–

这是把转义的UTF-8(十六进制)转换成HTML实体(十六进制)。

我想知道怎么用Python来实现这个操作?

1 个回答

1

如果 – 也是可以接受的,你可以使用:

>>> u'\x96'.encode('ascii', 'xmlcharrefreplace')
'–'

这个在 文档1 中也有提到。

1(虽然说得不是很清楚)...

撰写回答