Python UTF16波浪形破折号编码问题/问题

D:\> python Python 2.6.4 (r264:75708, Oct 26 2009, 08:23:19) [MSC v.1500 32 bit (Intel)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>> u"\u3030" u'\u3030' >>> u"\u3030".encode("utf-8") '\xe3\x80\xb0' >>> u"\u3030".encode("utf-16-le") '00' >>> u"\u3030".encode("utf-16-be") '00' >>> '\xe3\x80\xb0'.decode('utf-8') u'\u3030' >>> '\xe3\x80\xb0'.decode('utf-8').encode('utf-16') '\xff\xfe00' >>> '\xe3\x80\xb0'.decode('utf-8').encode('utf-16-le').decode('utf-8') u'00'

3条回答

网友

1楼 · 编辑于 2024-05-16 07:38:11

你被两件事弄糊涂了（我也被甩了）：

utf-16和utf-32编码使用BOM，除非您通过utf-16-be等指定使用哪个字节顺序。这是最后第二行中的\xff\xfe。在
“00”是两个字符digit zero。它不是空字符。反正打印方式不同：
```
>>> '\0\0'
'\x00\x00'
```

网友

2楼 · 编辑于 2024-05-16 07:38:11

这似乎是正确的行为。在UTF-16中编码的字符u'\u3030'与UTF-8中的“00”编码相同。看起来很奇怪，但它是对的。在

您可以看到的'\xff\xfe'只是一个Byte Order Mark。在

你确定你想要波浪形破折号，而不是其他字符？如果你希望有一个不同的字符，那可能是因为它在进入你的应用程序之前已经被错误地编码了。在

网友

3楼 · 编辑于 2024-05-16 07:38:11

但它可以解码：

>>> u"\u3030".encode("utf-16-le")
'00'
>>> '00'.decode("utf-16-le")
u'\u3030'

这个字符的UTF-16编码恰好与“0”的ASCII代码一致。也可以用'\x30\x30'来表示它：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章