我正在把一个字符串“çschşŞkrÜ”解码为其他字符集。在
我遇到了一些有趣的问题,想学习如何解决它。在
>>> "öçÇşŞükrÜ".decode("utf-8")
u'\xf6\xe7\xc7\u015f\u015e\xfckr\xdc'
>>> "öçÇşŞükrÜ".decode("utf-8").encode("utf-8")
'\xc3\xb6\xc3\xa7\xc3\x87\xc5\x9f\xc5\x9e\xc3\xbckr\xc3\x9c'
>>> import chardet
>>> chardet.detect('\xc3\xb6\xc3\xa7\xc3\x87\xc5\x9f\xc5\x9e\xc3\xbckr\xc3\x9c')
{'confidence': 0.99, 'encoding': 'utf-8'}
>>> chardet.detect("öçÇşŞükrÜ")
{'confidence': 0.99, 'encoding': 'utf-8'}
我不明白也找不到的是如何用Python进行解码和编码来检索原始字符串“öschşŞkrÜ”?在
不,您要将编码的字符串解码为内存中的Unicode表示。抱歉,如果这听起来很刺耳,但IMHO这是真的重要的是正确使用Unicode,而不是只是摸索,直到有东西工作。编辑:评论中的资源,https://www.youtube.com/watch?v=sgHbC6udIqc和http://www.joelonsoftware.com/articles/Unicode.html也是必不可少的。阅读并观看。您需要知道的是磁盘上或您的终端中没有Unicode。所有的东西都被编码了,使用一种或另一种编码方式。在
如果你用的是Linux,那就太幸运了!(美国Windows开发人员。。。好吧,痛苦的世界,等等)你的主机很可能是UTF-8,这样做吧
可能有道理。在
你试过了吗
^{pr2}$(也就是说,在应用
print
的情况下)?然后您应该取回您的原始öçÇşŞükrÜ
。在相关问题 更多 >
编程相关推荐