Unicode问题,如何在Python中正确解码/编码字符串

4 投票
1 回答
5419 浏览
提问于 2025-04-16 13:34

我在使用BeautifulSoup的时候,得到了一个这样的字符串:

u'Dassault Myst\xe8re'

这是一个unicode字符串,但我想要的是把它变成:

'Dassault Mystère'

我试过:

name = name.encode('utf-8'), decode(), unicode()

我一直遇到的错误是:

UnicodeEncodeError: 'ascii' codec can't encode character u'\xe8'

我的默认编码似乎是'ascii':sys.getdefaultencoding()返回'ascii',尽管我在文件顶部加了:

#!/usr/bin/env python
# encoding: utf-8

希望能一次性解决这个反复出现的Unicode问题!

谢谢

1 个回答

1

我不知道你是在哪里看到这个信息的,但看看这个例子:

$ python
Python 2.6.1 (r261:67515, Jun 24 2010, 21:47:49) 
[GCC 4.2.1 (Apple Inc. build 5646)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> txt = u'Dassault Myst\xe8re'
>>> txt
u'Dassault Myst\xe8re'
>>> print txt
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  UnicodeEncodeError: 'ascii' codec can't encode character u'\xe8' in position 13:
  ordinal not in range(128)
>>> ^D
$ export LANG=en_US.UTF-8
$ python
Python 2.6.1 (r261:67515, Jun 24 2010, 21:47:49) 
[GCC 4.2.1 (Apple Inc. build 5646)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> txt = u'Dassault Myst\xe8re'
>>> txt
u'Dassault Myst\xe8re'
>>> print txt
Dassault Mystère
>>>^D 

所以你可以看到,如果你的控制台是用ASCII编码的,那么在打印的时候,就会把unicode转换成ascii。如果有字符不在ASCII范围内,就会出现错误。

但是如果控制台可以接受unicode,那么所有内容就会正确显示。

撰写回答