Python 3-编码/解码vs字节/

2024-05-17 15:55:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我是python3的新手,来自python2,我对unicode的基本原理有点困惑。 我读过一些很好的文章,这使它更加清晰,但是我看到Python3上有两个方法,处理编码和解码,我不确定使用哪一个。

因此,python 3的思想是,每个字符串都是unicode,可以用字节编码和存储,或者再次解码成unicode字符串。

但有两种方法可以做到这一点:
u'something'.encode('utf-8')将生成b'bytes',但bytes(u'something', 'utf-8')也会生成b'bytes'
b'bytes'.decode('utf-8')似乎做了与str(b'', 'utf-8')相同的事情。

现在我的问题是,为什么有两种方法看起来做同样的事情,或者比另一种更好(为什么?)我一直试图在谷歌上找到答案,但没有运气。

>>> original = '27岁少妇生孩子后变老'
>>> type(original)
<class 'str'>
>>> encoded = original.encode('utf-8')
>>> print(encoded)
b'27\xe5\xb2\x81\xe5\xb0\x91\xe5\xa6\x87\xe7\x94\x9f\xe5\xad\xa9\xe5\xad\x90\xe5\x90\x8e\xe5\x8f\x98\xe8\x80\x81'
>>> type(encoded)
<class 'bytes'>
>>> encoded2 = bytes(original, 'utf-8')
>>> print(encoded2)
b'27\xe5\xb2\x81\xe5\xb0\x91\xe5\xa6\x87\xe7\x94\x9f\xe5\xad\xa9\xe5\xad\x90\xe5\x90\x8e\xe5\x8f\x98\xe8\x80\x81'
>>> type(encoded2)
<class 'bytes'>
>>> print(encoded+encoded2)
b'27\xe5\xb2\x81\xe5\xb0\x91\xe5\xa6\x87\xe7\x94\x9f\xe5\xad\xa9\xe5\xad\x90\xe5\x90\x8e\xe5\x8f\x98\xe8\x80\x8127\xe5\xb2\x81\xe5\xb0\x91\xe5\xa6\x87\xe7\x94\x9f\xe5\xad\xa9\xe5\xad\x90\xe5\x90\x8e\xe5\x8f\x98\xe8\x80\x81'
>>> decoded = encoded.decode('utf-8')
>>> print(decoded)
27岁少妇生孩子后变老
>>> decoded2 = str(encoded2, 'utf-8')
>>> print(decoded2)
27岁少妇生孩子后变老
>>> type(decoded)
<class 'str'>
>>> type(decoded2)
<class 'str'>
>>> print(str(b'27\xe5\xb2\x81\xe5\xb0\x91\xe5\xa6\x87\xe7\x94\x9f\xe5\xad\xa9\xe5\xad\x90\xe5\x90\x8e\xe5\x8f\x98\xe8\x80\x81', 'utf-8'))
27岁少妇生孩子后变老
>>> print(b'27\xe5\xb2\x81\xe5\xb0\x91\xe5\xa6\x87\xe7\x94\x9f\xe5\xad\xa9\xe5\xad\x90\xe5\x90\x8e\xe5\x8f\x98\xe8\x80\x81'.decode('utf-8'))
27岁少妇生孩子后变老

Tags: bytesutfprintstrxe7x81xe5xb0
3条回答

两者都不比另一个好,他们做的完全一样。然而,使用.encode().decode()是更常见的方法。它还与Python 2兼容。

要添加到Lennart Regebro's answer中,甚至可以使用第三种方法:

encoded3 = str.encode(original, 'utf-8')
print(encoded3)

不管怎样,它实际上和第一种方法完全一样。第二种方法可能是第三种方法的语法糖。


编程语言是一种形式化地表达抽象思想的方法,由机器执行。如果编程语言包含所需的结构,则认为它是好的。Python是一种混合语言,即比纯OO或纯过程语言更自然、更通用。有时函数比对象方法更合适,有时反之亦然。这取决于解决问题的心理图景。

无论如何,问题中提到的特性可能是语言实现/设计的副产品。在我看来,这是一个很好的例子,它展示了对技术上相同的事物的另类思考。

换句话说,调用一个对象方法意味着用“让对象给我想要的结果”“来思考。作为替代方法调用函数意味着“让外部代码处理传递的参数并提取所需的值”。

第一种方法强调对象独立完成任务的能力,第二种方法强调单独算法提取数据的能力。有时,单独的代码可能非常特殊,因此将其作为常规方法添加到对象类中是不明智的。

在前面的答案基础上再加上,甚至还有第四种方法可以使用

import codecs
encoded4 = codecs.encode(original, 'utf-8')
print(encoded4)

相关问题 更多 >