如何规范Python字符串编码

25_%D1%80%D0%B0%D1%88%D3%99%D0%B0%D1%80%D0%B0 2_\xD1\x80\xD0\xB0\xD1\x88\xD3\x99\xD0\xB0\xD1\x80\xD0\xB0 5_%D1%80%D0%B0%D1%88%D3%99%D0%B0%D1%80%D0%B0 \xD0\x90\xD0\xBA\xD0\xB0\xD0\xB1\xD0\xB0 \xD0\x90\xD1\x88\xD3\x99\xD0\xB0\xD1\x85\xD1\x8C\xD0\xB0 function.fopen Бразилиа Валерии_Маиромиан Rome,_Italy Rome%2C_Italy

25_рашәара 2_\xD1\x80\xD0\xB0\xD1\x88\xD3\x99\xD0\xB0\xD1\x80\xD0\xB0 5_рашәара \xD0\x90\xD0\xBA\xD0\xB0\xD0\xB1\xD0\xB0 \xD0\x90\xD1\x88\xD3\x99\xD0\xB0\xD1\x85\xD1\x8C\xD0\xB0 function.fopen Бразилиа Валерии_Маиромиан Rome,_Italy Rome,_Italy

2条回答

网友

1楼 · 编辑于 2024-05-16 21:23:37

这段代码使用了与Eugene Lisitsky相似的方法，只是它运行在python2上。在python2中，可能有一种更简洁的方法来实现这一点，但它似乎可以正确地处理操作中的数据

顺便说一句，当你问到一个与Unicode有关的问题时，你应该用一个适当的Python版本标记来标记你的问题，因为python3中的Unicode处理方式与python2中的工作方式（或者失败了：）大不相同。在

import codecs
import urllib

fname = 'input.txt'

with open(fname, 'rb') as f:
    for line in f:
        line = line.strip()
        line = urllib.unquote(line)
        if r'\x' in line:
            line = codecs.unicode_escape_decode(line)[0]
            line = line.encode('latin1')

        line = line.decode('utf-8')
        print repr(line), line

输出

^{pr2}$
如您所见，我已经将所有字符串转换为Unicode对象。如果出于某种原因，您希望它们成为纯python2字符串，只需消除line = line.decode('utf-8')行。在

网友
2楼 · 编辑于 2024-05-16 21:23:37

你可以用codecs.unicode_escape_解码要解码反斜杠转义字符，请执行以下操作：
>>> import codecs >>> s=r"\xD0\x90\xD0\xBA\xD0\xB0\xD0\xB1\xD0\xB0" >>> print(s) \xD0\x90\xD0\xBA\xD0\xB0\xD0\xB1\xD0\xB0 >>> s1=codecs.unicode_escape_decode(s)[0] >>> print(s1) ÐÐºÐ°Ð±Ð° >>> bytes(s1,'latin1').decode('utf-8') 'Акаба' >>>

相关问题更多 >

编程相关推荐

热门问题

热门文章