Python2.7中的编码问题的回答

Python2.7中的编码

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我对Python2.7中的编码有一些疑问。 1.python代码如下 <pre><code>#s = u"严" s = u'\u4e25' print 's is:', s print 'len of s is:', len(s) s1 = "a" + s print 's1 is:', s1 print 'len of s1 is:', len(s1) </code></pre> 输出为： <pre><code>s is: 严 len of s is: 1 s1 is: a严 len of s1 is: 2 </code></pre> 我很困惑，为什么<code>s</code>的len是1，如何将<code>4e25</code>存储在1字节中？我还注意到USC-2是2字节长，USC-4是4字节长，为什么unicode字符串<code>s</code>的长度是1？ 2。（1）用notepad++（Windows 7）新建一个名为<code>a.py</code>的文件，并设置该文件的编码<code>ANSI</code>，在<code>a.py</code>中的代码如下： <pre><code># -*- encoding:utf-8 -*- import sys print sys.getdefaultencoding() s = "严" print "s:", s print "type of s:", type(s) </code></pre> 输出为： <pre><code>ascii s: 严 type of s: <type 'str'> </code></pre> （2）使用记事本++（Windows7）新建一个名为<code>b.py</code>的文件，并设置该文件的编码<code>UTF-8</code>，在<code>b.py</code>中的代码如下： <pre><code># -*- encoding:gbk -*- import sys print sys.getdefaultencoding() s = "严" print "s:", s print "type of s:", type(s) </code></pre> 输出为： <pre><code> File "D:\pyws\code\\b.py", line 1 SyntaxError: encoding problem: utf-8 </code></pre> （3）将文件<code>b.py</code>更改如下（文件的编码方式为<code>UTF-8</code>）： <pre><code>import sys print sys.getdefaultencoding() s = "严" print "s:", s print "type of s:", type(s) </code></pre> 输出为： <pre><code>ascii s: 涓 type of s: <type 'str'> </code></pre> （4）将文件<code>a.py</code>更改如下（文件的编码方式为<code>ANSI</code>）： <pre><code>import sys print sys.getdefaultencoding() s = "严" print "s:", s print "type of s:", type(s) </code></pre> 输出为： <pre><code> File "D:\pyws\code\a1.py", line 3 SyntaxError: Non-ASCII character '\xd1' in file D:\pyws\code\a1.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html f or details </code></pre> 为什么问题2中这4个案例的输出不同？有人能详细了解吗？

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

<h3>对问题1的回答：</h3> 在Python版本&lt；3.3中，Unicode字符串<code>u''</code>的长度是使用的UTF-16或UTF-32代码单元数（取决于生成标志），而不是字节数。<code>\u4e25</code>是一个代码单元，但如果使用UTF-16（Windows上的默认值），则并非所有字符都由一个代码单元表示。 <pre><code>>>> len(u'\u42e5') 1 >>> len(u'\U00010123') 2 </code></pre> 在Python3.3中，上述两个函数都将返回1。 Unicode字符也可以由组合代码单元组成，例如<code>é</code>。<code>normalize</code>函数可用于生成组合形式或分解形式： <pre><code>>>> import unicodedata as ud >>> ud.name(u'\xe9') 'LATIN SMALL LETTER E WITH ACUTE' >>> ud.normalize('NFD',u'\xe9') u'e\u0301' >>> ud.normalize('NFC',u'e\u0301') u'\xe9' </code></pre> 因此，即使在Python3.3中，一个显示字符也可以有一个或多个代码单元，为了得到一致的答案，最好将其规范化为一种或另一种形式。 <h3>问题2的答案：</h3> 文件顶部声明的编码必须与保存文件的编码一致。声明让Python知道如何解释文件中的字节。 例如，字符<code>严</code>在另存为UTF-8的文件中保存为3个字节，但在另存为GBK的文件中保存为2个字节： <pre><code>>>> u'严'.encode('utf8') '\xe4\xb8\xa5' >>> u'严'.encode('gbk') '\xd1\xcf' </code></pre> 如果声明了错误的编码，则字节将被错误地解释，Python将显示错误的字符或引发异常。 按评论编辑 2（1）-这取决于系统，因为ANSI是系统区域设置的默认编码。在我的系统中，<code>cp1252</code>和记事本++不能显示中文字符。如果我将系统区域设置设置为<code>Chinese(PRC)</code>，那么我将在控制台终端上获得您的结果。在这种情况下，它正常工作的原因是使用了字节字符串，并且字节只是发送到终端。由于文件是在<code>Chinese(PRC)</code>区域设置的<code>ANSI</code>中编码的，因此<code>Chinese(PRC)</code>区域设置终端会正确解释字节字符串包含的字节。 2（2）-文件用UTF-8编码，但编码声明为GBK。当Python读取编码时，它试图将文件解释为GBK，但失败了。您选择了<code>UTF-8</code>作为编码，在记事本++中，它还包括一个UTF-8编码字节顺序标记（BOM）作为文件中的第一个字符，而GBK编码解码器没有将其作为有效的GBK编码字符读取，因此在第1行失败。 2（3）-文件使用UTF-8编码（带物料清单），但缺少编码声明。Python识别UTF-8编码的BOM并使用UTF-8作为编码，但是文件是GBK格式的。因为使用了字节字符串，所以UTF-8编码的字节被发送到GBK终端，您将得到： <pre><code>>>> u'严'.encode('utf8').decode( '\xe4\xb8\xa5' >>> '\xe4\xb8'.decode('gbk') u'\u6d93' >>> print '\xe4\xb8'.decode('gbk') 涓 </code></pre> 在这种情况下，我很惊讶，因为Python忽略了字节<code>\xa5</code>，正如您在下面看到的，当我显式解码错误时，Python抛出一个异常： <pre><code>>>> u'严'.encode('utf8').decode('gbk') Traceback (most recent call last): File "<interactive input>", line 1, in <module> UnicodeDecodeError: 'gbk' codec can't decode byte 0xa5 in position 2: incomplete multibyte sequence </code></pre> 2（4）-在这种情况下，编码是ANSI（GBK），但没有声明编码，而且在UTF-8中没有类似BOM的BOM来给Python一个提示，因此它采用ASCII，并且不能处理第3行的GBK编码字符。

Python2.7中的编码

1 个回答

相关Python问题