擅长:python、mysql、java
<p><code>'\x80'.decode('cp1252')</code>不给出<code>u'\u0080'</code>(这与<code>u'\x80'</code>是同一回事)。</p>
<p><a href="http://en.wikipedia.org/wiki/Windows-1252" rel="nofollow">Windows code page 1252</a>中的字节0x80解码为Unicode字符<code>€</code>U+20AC欧洲符号。</p>
<p>有一种编码方式,所有字节0x00到0xFF解码为具有相同数字U+0000到U+00FF的Unicode字符:它是<a href="http://en.wikipedia.org/wiki/ISO/IEC_8859-1" rel="nofollow">^{<cd5>}</a>。通过这种编码,您的示例可以工作。</p>
<p>Windows <code>cp1252</code>与该编码类似,但不相同:虽然0xA0到0xFF与<code>iso-8859-1</code>中的相同,因此您可以获得这些字符的直接映射行为,但字节0x80到0x9F是来自其他Unicode块的额外符号的组合,而不是不可见(基本上无用)的控制代码U+0080到U+009F</p>