从控制台输入时，转储为JSON时出现UnicodeDecodeError

Question

我从控制台输入了一些西里尔字母的文本，当我尝试把它转成json格式时，出现了 exceptions.UnicodeDecodeError: 'utf8' codec can't decode byte 的错误。我搞不清楚为什么会这样，因为这个问题并不是每次都会发生，而且文本总是西里尔字母。

这是我输入文本的代码部分：

item['title'] = raw_input('Title: ')
item['description'] = raw_input('Description: ')

这是我把字典转成json的那一行代码：

line = json.dumps(dict(item), encoding='utf8') + "\n"

这个项目不是字典，而是一个对象，所以我需要先把它转换成字典。以下是完整的错误追踪信息：

Traceback (most recent call last):
  File "/home/dmitry/.virtualenvs/test_scrapy/local/lib/python2.7/site-packages/scrapy/middleware.py", line 62, in _process_chain
    return process_chain(self.methods[methodname], obj, *args)
  File "/home/dmitry/.virtualenvs/test_scrapy/local/lib/python2.7/site-packages/scrapy/utils/defer.py", line 65, in process_chain
    d.callback(input)
  File "/home/dmitry/.virtualenvs/test_scrapy/local/lib/python2.7/site-packages/twisted/internet/defer.py", line 382, in callback
    self._startRunCallbacks(result)
  File "/home/dmitry/.virtualenvs/test_scrapy/local/lib/python2.7/site-packages/twisted/internet/defer.py", line 490, in _startRunCallbacks
    self._runCallbacks()
--- <exception caught here> ---
  File "/home/dmitry/.virtualenvs/test_scrapy/local/lib/python2.7/site-packages/twisted/internet/defer.py", line 577, in _runCallbacks
    current.result = callback(current.result, *args, **kw)
  File "/home/dmitry/Dropbox/coding/python/scrapy/videos_parser/videos_parser/pipelines.py", line 94, in process_item
    line = json.dumps(dict(item), encoding='utf8') + "\n"
  File "/usr/lib/python2.7/json/__init__.py", line 250, in dumps
    sort_keys=sort_keys, **kw).encode(obj)
  File "/usr/lib/python2.7/json/encoder.py", line 207, in encode
    chunks = self.iterencode(o, _one_shot=True)
  File "/usr/lib/python2.7/json/encoder.py", line 270, in iterencode
    return _iterencode(o, 0)
  File "/usr/lib/python2.7/json/encoder.py", line 233, in _encoder
    o = o.decode(_encoding)
  File "/home/dmitry/.virtualenvs/test_scrapy/lib/python2.7/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
exceptions.UnicodeDecodeError: 'utf8' codec can't decode byte 0xd1 in position 15: invalid continuation byte

sys.getdefaultencoding() 显示我正在使用 ascii 编码。我尝试用 sys.setdefaultencoding('utf8') 把它改成utf8，但没有成功。

更新

这是我用来查看字符串在解码前样子的代码：

try:
    item['title'] = raw_input('Title: ')
    item['title'] = item['title'].decode(sys.stdin.encoding)
except UnicodeDecodeError:
    print repr(item['title'])
try:
    item['description'] = raw_input('Description: ')
    item['description'] = item['description'].decode(sys.stdin.encoding)
except UnicodeDecodeError:
    print repr(item['description'])

这是控制台输出的结果：

Title: На работе платят бабло, но работать надо на ней
'\xd0\x9d\xd0\xb0 \xd1\x80\xd0\xb0\xd0\xb1\xd0\xbe\xd1\x82\xd0\xd0\xb5 \xd0\xbf\xd0\xbb\xd0\xb0\xd1\x82\xd1\x8f\xd1\x82 \xd0\xb1\xd0\xb0\xd0\xb1\xd0\xbb\xd0\xbe, \xd0\xbd\xd0\xd0\xbe \xd1\x80\xd0\xb0\xd0\xb1\xd0\xbe\xd1\x82\xd0\xb0\xd1\x82\xd1\x8c \xd0\xbd\xd0\xb0\xd0\xb4\xd0\xbe \xd0\xbd\xd0\xb0 \xd0\xbd\xd0\xb5\xd0\xb9'
Description: Я не против первого, но без второго мне веселей
'\xd0\xaf \xd0\xbd\xd0\xb5 \xd0\xbf\xd1\x80\xd0\xbe\xd1\x82\xd0\xb8\xd0\xb2 \xd0\xbf\xd0\xb5\xd1\x80\xd0\xb2\xd0\xbe\xd0\xb3\xd0\xbe \xd0, \xd0\xbd\xd0\xbe \xd0\xb1\xd0\xb5\xd0\xb7 \xd0\xb2\xd1\x82\xd0\xbe\xd1\x80\xd0\xbe\xd0\xb3\xd0\xbe \xd0\xbc\xd0\xbd\xd0\xb5 \xd0\xb2\xd0\xb5\xd1\x81\xd0\xb5\xd0\xbb\xd0\xb5\xd0\xb9'

错误处理 unicode json 数据格式化字符串解码控制台输入编码西里尔字母

从控制台输入时，转储为JSON时出现UnicodeDecodeError

2 个回答

撰写回答