在python中读上标（NG²）和latin1的编码格式是什么？

... Solo Fue Una Noche;NG²;Comienzos;9;2004 (printed by a print() cmd) Traceback (most recent call last): File "get_playlist-tracks.py", line 110, in <module> ndt.write(line+"\n").encode('latin-1') UnicodeEncodeError: 'ascii' codec can't encode characters in position 21-22: ordinal not in range(128)

>>> line="Solo Fue Una Noche;NG²;Comienzos;9;2004" >>> playlist_name = '/home/.../Python/PLLs/Sole_01a_tracks.txt' >>> ndt = open(playlist_name, 'w') >>> ndt.write(line+"\n").decode('utf-8') Traceback (most recent call last): File "<stdin>", line 1, in <module> AttributeError: 'int' object has no attribute 'decode' >>> ndt.write(line+"\n") 40 >>> line 'Solo Fue Una Noche;NG²;Comienzos;9;2004' >>> playlist_name '/home/.../Python/PLLs/Sole_01a_tracks.txt' >>> ndt.write(line) 39

1条回答

网友

1楼 · 发布于 2024-04-23 18:37:08

问题不是上标2。它是拉丁语-1字符\xb2，不需要不同的编码。问题是您对已经是拉丁语-1的字节字符串调用encode()。在

首先，请理解encode()接受一个Unicode字符串，并将其转换为某种表示形式，将字节值映射到Unicode码位。所以要使用它，你必须在Unicode字符串上调用它。如果对普通字符串调用encode()，Python会首先尝试将其强制为Unicode。在

因为这是python2，所以原始字符串（line）是一个字节字符串，除非您告诉它编码是什么，否则无法可靠地将其强制转换为Unicode。如果不这样做，并且选择默认强制，Python将假定ascii。在

因此，您必须从latin-1中解码以获得Unicode:

>>> line="Solo Fue Una Noche;NG²;Comienzos;9;2004"
>>> line
'Solo Fue Una Noche;NG\xb2;Comienzos;9;2004'
>>> line.decode('latin-1')
u'Solo Fue Una Noche;NG\xb2;Comienzos;9;2004'

在本例中，Unicode和Latin-1恰好具有相同的非ascii字符的8位表示形式。但那只是一个意外。它可能不同，这就是为什么你必须指定解码。现在有了一个unicode字符串，可以将'\n'附加到该字符串：

^{pr2}$
然后，您可以将这个Unicode字符串编码回拉丁语-1以输出：
>>> (line.decode('latin-1')+"\n").encode('latin-1') 'Solo Fue Una Noche;NG\xb2;Comienzos;9;2004\n'
但是对于你正在做的事情，你根本不需要encode()。你说是从Spotify得到了拉丁语-1。你希望你的输出是拉丁语-1。所以您只需将"\n"附加到输入字符串并写出它。在
>>> line="Solo Fue Una Noche;NG²;Comienzos;9;2004" >>> line + "\n" 'Solo Fue Una Noche;NG\xb2;Comienzos;9;2004\n' >>> ndt.write(line+"\n")

相关问题更多 >

编程相关推荐

热门问题

热门文章