Python中特殊字符的比较

1条回答

网友

1楼 · 发布于 2024-06-17 13:14:44

好消息：

你说的是两种类型的字符串，字节字符串和unicode字符串。每一个都有一个方法将其转换为另一种类型的字符串。Unicode字符串有一个生成字节的.encode（）方法，字节字符串有一个生成Unicode的.decode（）方法。意思是：

unicode.enocde() > bytes

以及

bytes.decode() -> unicode

UTF-8是Unicode存储和传输中最流行的编码方式。它为每个代码点使用可变的字节数。码位值越高，在UTF-8中需要的字节越多。在

切中要害：

如果将字符串重新定义为双字节字符串和unicode字符串，如下所示：

a_byte = b'Ope\xcc\x81rations'
a_unicode = u'Ope\xcc\x81rations'

以及

^{pr2}$

你会看到：

print 'a_byte lenght is: ', len(a_byte.decode("utf-8"))
#print 'a_unicode lenght is: ',len(a_unicode.encode("utf-8"))

print 'b_byte lenght is: ',len(b_byte.decode("utf-8"))
#print 'b_unicode lenght is: ', len(b_unicode.encode("utf-8"))

输出：

a_byte lenght is:  11
b_byte lenght is:  10

所以你看他们是不一样的。在

我的解决方案：

如果不想混淆，那么可以使用repr()，当打印a字节时，b字节打印Opérations作为输出，但是：

print repr(a_byte),repr(b_byte)

将返回：

'Ope\xcc\x81rations','Op\xc3\xa9rations'

还可以将比较前的unicode规范化为@Daniel's answer，如下所示：

from unicodedata import normalize
from functools import partial
a_byte = 'Opérations'
norm = partial(normalize, 'NFC')
your_string = norm(a_byte.decode('utf8'))

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python中特殊字符的比较

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >