在Python 2.7中的Unicode Cyrillic字符串

[{'seo_a_title_text': u'\xd0\xa8\xd1\x82\xd0\xb0\xd1\x82\xd1\x8b ', 'src_value': '/logo.png', 'seo_text': u'Logo of \xd0\xa8\xd1\x82\xd0\xb0\xd1\x82\xd1\x8b ', 'template_tag': False, 'page_id': 150, 'tag_type': 'img'}]

2条回答

网友

1楼 · 编辑于 2024-04-26 00:39:11

var = [{'seo_a_title_text': u'\xd0\xa8\xd1\x82\xd0\xb0\xd1\x82\xd1\x8b ', 'src_value': '/logo.png', 'seo_text': u'Logo of \xd0\xa8\xd1\x82\xd0\xb0\xd1\x82\xd1\x8b ', 'template_tag': False, 'page_id': 150, 'tag_type': 'img'}]
print var[0]['seo_a_title_text']

网友

2楼 · 编辑于 2024-04-26 00:39:11

这个\xd0\xa8\xd1\x82\xd0\xb0\xd1\x82\xd1\x8b字符串是Штаты的utf8表示。在

Utf8使用一个或多个字节对字符进行编码，因此例如：Ш（在unicode表中有0x0428的位置，在Utf8中将其编码为\xd0\xa8）。在

现在比较棘手的是，您将得到一个utf8字符串作为unicode字符串。在正确应用utf8之前，您需要将其转换为字节。一个诀窍是使用iso8859-1（又名拉丁语-1），因为它将前256个Unicode码位映射到它们的字节值。在

>>> u'\xd0\xa8\xd1\x82\xd0\xb0\xd1\x82\xd1\x8b'
'Ð¨Ñ\x82Ð°Ñ\x82Ñ\x8b'
>>> u'\xd0\xa8\xd1\x82\xd0\xb0\xd1\x82\xd1\x8b'.encode('latin1')
b'\xd0\xa8\xd1\x82\xd0\xb0\xd1\x82\xd1\x8b'
>>> u'\xd0\xa8\xd1\x82\xd0\xb0\xd1\x82\xd1\x8b'.encode('latin1').decode('utf8')
'Штаты'

注意：正如bruno所说，解析器可以直接配置为正确的编码。这将避免这种肮脏的编码混乱。。。在

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章