转换双斜杠utf8编码

{'m_cacheHandles': ['s2ma\x00\x00CN\x1f\x1b"\x8d\xdb\x1fr \\\xbf\xd4D\x05R\x87\x10\x0b\x0f9\x95\x9b\xe8\x16T\x81b\xe4\x08\x1e\xa8U\x11', 's2ma\x00\x00CN\x1a\xd9L\x12n\xb9\x8aL\x1d\xe7\xb8\xe6\xf8\xaa\xa1S\xdb\xa5+\t\xd3\x82^\x0c\x89\xdb\xc5\x82\x8d\xb7\x0fv', 's2ma\x00\x00CN\x92\xd8\x17D\xc1D\x1b\xf6(\xedj\xb7\xe9\xd1\x94\x85\xc8`\x91M\x8btZ\x91\xf65\x1f\xf9\xdc\xd4\xe6\xbb', 's2ma\x00\x00CN\xa1\xe9\xab\xcd?\xd2PS\xc9\x03\xab\x13R\xa6\x85u7(K2\x9d\x08\xb8k+\xe2\xdeI\xc3\xab\x7fC', 's2ma\x00\x00CNN\xa5\xe7\xaf\xa0\x84\xe5\xbc\xe9HX\xb93S*sj\xe3\xf8\xe7\x84`\xf1Ye\x15~\xb93\x1f\xc90', 's2ma\x00\x00CN8\xc6\x13F\x19\x1f\x97AH\xfa\x81m\xac\xc9\xa6\xa8\x90s\xfdd\x06\rL]z\xbb\x15\xdcI\x93\xd3V'], 'm_campaignIndex': 0, 'm_defaultDifficulty': 7, 'm_description': '', 'm_difficulty': '', 'm_gameSpeed': 4, 'm_imageFilePath': '', 'm_isBlizzardMap': True, 'm_mapFileName': '', 'm_miniSave': False, 'm_modPaths': None, 'm_playerList': [{'m_color': {'m_a': 255, 'm_b': 255, 'm_g': 92, 'm_r': 36}, 'm_control': 2, 'm_handicap': 0, 'm_hero': '\xe6\x89\x8e\xe5\x8a\xa0\xe6\x8b\x89',

3条回答

网友

1楼 · 编辑于 2024-05-17 00:19:16

你可以做一些愚蠢的事情，比如eval导出字符串：

import ast
s = r'\xe6\x89\x8e\xe5\x8a\xa0\xe6\x8b\x89'
print ast.literal_eval('"%s"' % s).decode('utf-8')

注意：如果不希望攻击者访问您的系统，请使用ast.literal_eval

在你的案例中使用这个可能看起来像：

with open('file') as file_handle:
    data = ast.literal_eval('"%s"' % file.read()).decode('utf-8')

我认为这里真正的问题是可能有一个包含表示字节的字符串的文件（而不是一个只存储字节本身的文件）。因此，首先修复生成该文件的任何代码可能是更好的选择。不过，除此之外，这是我能想到的下一件最好的事情。。。

网友

2楼 · 编辑于 2024-05-17 00:19:16

我假设您使用的是Python 3。在Python2中，默认情况下字符串是字节，因此它只对您有效。但是在Python3中，字符串是unicode的，并被解释为unicode，这就是为什么如果将字节字符串读为unicode会使这个问题变得更困难的原因。

这个解决方案的灵感来自于mgilson的回答。通过使用^{}，我们可以将您的unicode字符串作为字节字符串进行实际计算：

from ast import literal_eval

with open('source.txt', 'r', encoding='utf-8') as f_open:
    source = f_open.read()
    string = literal_eval("b'{}'".format(source)).decode('utf-8')
    print(string)  # 扎加拉

网友

3楼 · 编辑于 2024-05-17 00:19:16

问题是the ^{} codec is implicitly decoding the result of the escape fixes by assuming the bytes are ^{}, not ^{}。您可以通过以下方法解决此问题：

# Read the file as bytes:
with open(myfile, 'rb') as f:
    data = f.read()

# Decode with unicode-escape to get Py2 unicode/Py3 str, but interpreted
# incorrectly as latin-1
badlatin = data.decode('unicode-escape')

# Encode back as latin-1 to get back the raw bytes (it's a 1-1 encoding),
# then decode them properly as utf-8
goodutf8 = badlatin.encode('latin-1').decode('utf-8')

它（假设文件包含文本反斜杠和代码，而不是它们所表示的字节）留给您'\u624e\u52a0\u62c9'（这应该是正确的，我只是在一个没有对这些字符的字体支持的系统上，所以这只是基于Unicode转义的安全repr）。您可以在Py2中跳过一步，在第一阶段使用string-escape编解码器decode（我相信这将允许您省略.encode('latin-1')步骤），但是这个解决方案应该是可移植的，而且成本不应该太高。

相关问题更多 >

编程相关推荐

热门问题

热门文章