“ascii”编解码器无法编码字符u'\xe9'

ar = [u'http://dbpedia.org/resource/Anne_Hathaway', u'http://dbpedia.org/resource/Jodie_Bain', u'http://dbpedia.org/resource/Wendy_Divine', u'http://dbpedia.org/resource/Jos\xe9_El\xedas_Moreno', u'http://dbpedia.org/resource/Baaba_Maal']

3条回答

网友

1楼 · 编辑于 2024-06-16 11:20:32

python中的Unicode strings是"raw" unicode，因此请确保.encode()和.decode()是适当的。使用utf8编码被认为是全世界多个开发组的最佳实践。要编码，请使用urllib2库中的quote函数：

from urllib2 import quote
escaped_string = quote(unicode_string.encode('utf-8'))

要解码，请使用unquote：

from urllib2 import unquote
src = "http://dbpedia.org/resource/Jos\xc3\xa9_El\xc3\xadas_Moreno"
unicode_string = unquote(src).decode('utf-8')

另外，如果您对Unicode和UTF-8工作更感兴趣，请查看Unicode HOWTO

网友

2楼 · 编辑于 2024-06-16 11:20:32

字符串的第二个版本是原始unicode字符串的正确utf-8表示形式。如果要进行有意义的比较，则必须对存储的字符串和用户输入字符串使用相同的表示形式。这里要做的明智的事情是始终在内部（在代码中）使用Unicode字符串，并确保用户输入和存储的字符串都从系统边界（存储子系统和用户输入子系统）的各自编码正确地解码为Unicode。

此外，您似乎对unicode和编码有点困惑，因此阅读this和this可能会有所帮助。

网友

3楼 · 编辑于 2024-06-16 11:20:32

在Unicode列表中，u'http://dbpedia.org/resource/Jos\xe9_El\xedas_Moreno'是表示Unicode字符串的ASCII安全方式。当以支持完整西欧字符集（如UTF-8）的形式编码时，它是：http://dbpedia.org/resource/José_Elías_Moreno

您的.encode("UTF-8")是正确的，在UTF-8编辑器或浏览器中看起来是正常的。在编码之后，您看到的是UTF-8的ASCII安全表示。

例如，你的麻烦招牌是和。

é = 00E9 Unicode = C3A9 UTF-8
í = 00ED Unicode = C3AD UTF-8

简而言之，您的.encode()方法是正确的，应该用于写入文件或浏览器。

相关问题更多 >

编程相关推荐

热门问题

热门文章