字符编码、XML、Excel、python

page = unicode(page, "utf-8") page = unicodedata.normalize("NFKD", page) page = page.encode("utf-8", "ignore") Output: Zmys\xc5\x82owska, Magdalena Output after print statement: ZmysÅ‚owska, Magdalena

1条回答

网友

1楼 · 发布于 2024-05-12 19:28:19

你的问题不在于你的编码和解码。代码正确地接受UTF-8字符串，并将其转换为NFKD规范化的UTF-8字符串。（您可能希望使用page.decode("utf-8")而不是{}，以防将来使用python3，并使代码更易于阅读，因为encode和{}显然是并行的，但您不必这样做；两者是等效的。）

实际上，您的问题是将UTF-8字符串打印到不是UTF-8的上下文中。很可能您正在打印到cmd窗口，默认为Windows-1252。因此，cmd试图将UTF-8字符解释为Windows-1252，并得到垃圾。在

有一个非常简单的方法来测试这个。让Python将UTF-8字符串解码为Windows-1252，然后查看生成的Unicode字符串是否与所看到的一样。在

>>> print page.decode('windows-1252')
ZmysÅ‚owska, Magdalena

>>> print repr(page.decode('windows-1252'))
u'Zmys\xc5\u201aowska, Magdalena'

有两种解决方法：

打印Unicode字符串并让Python处理它。在
打印转换为适当编码的字符串。在

对于方案1：

^{pr2}$

对于选项2，它将是以下选项之一：

print page.decode("utf-8").encode("windows-1252")
print page.decode("utf-8").encode(sys.getdefaultencoding())

当然，如果保留中间Unicode字符串，就不需要所有这些decode调用：

upage = page.decode("utf-8")
upage = unicodedata.normalize("NFKD", upage)
page = upage.encode("utf-8", "ignore")

print upage

相关问题更多 >

编程相关推荐

热门问题

热门文章