如何正确地保存到包含utf8字符串的词典

PS Z:\dev\poc\SDR> python Python 2.7.1 (r271:86832, Nov 27 2010, 17:19:03) [MSC v.1500 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>> from googlemaps import GoogleMaps >>> gmaps = GoogleMaps("*** my google API key ***") >>> d=gmaps.reverse_geocode(51.75,19.46667) >>> d {u'Status': {u'code': 200, u'request': u'geocode'}, u'Placemark': [{u'Point': {u'coordinates': [19.466876, 51.7501456, 0]}, u'ExtendedData': {u'LatLonBox': {u'west': 19.465527, u'east': 19.468225, u'n orth': 51.7514946, u'south': 51.7487966}}, u'AddressDetails': {u'Country': {u'CountryName': u'Polska', u'AdministrativeArea': {u'SubAdministrativeArea': {u'SubAdministrativeAreaName': u'\u0141\xf3d\u0 17a', u'Locality': {u'Thoroughfare': {u'ThoroughfareName': u'ksi\u0119dza Biskupa Wincentego Tymienieckiego 16'}, u'LocalityName': u'\u0141\xf3d\u017a'}}, u'AdministrativeAreaName': u'\u0142\xf3dzkie' }, u'CountryNameCode': u'PL'}, u'Accuracy': 8}, u'id': u'p1', u'address': u'ksi\u0119dza Biskupa Wincentego Tymienieckiego 16, 90-001 \u0141\xf3d\u017a, Poland'}], u'name': u'51.750000,19.466670'} >>> import pprint >>> pp = pprint.PrettyPrinter(indent = 2) >>> pp.pprint(d) { u'Placemark': [ { u'AddressDetails': { u'Accuracy': 8, u'Country': { u'AdministrativeArea': { u'AdministrativeAreaName': u'\u0142\xf3dzkie', u'SubAdministrativeArea': { u'Locality': { u'LocalityName': u'\u0141\xf3d\u017a', u'Thoroughfare': { u'ThoroughfareName': u'ksi\u0119dza Biskupa Wincentego Tym ienieckiego 16'}}, u'SubAdministrativeAreaName': u'\u0141\xf3d\u017a'}}, u'CountryName': u'Polska', u'CountryNameCode': u'PL'}}, u'ExtendedData': { u'LatLonBox': { u'east': 19.468225, u'north': 51.7514946, u'south': 51.7487966, u'west': 19.465527}}, u'Point': { u'coordinates': [19.466876, 51.7501456, 0]}, u'address': u'ksi\u0119dza Biskupa Wincentego Tymienieckiego 16, 90-001 \u0141\xf3d\u017a, Poland', u'id': u'p1'}], u'Status': { u'code': 200, u'request': u'geocode'}, u'name': u'51.750000,19.466670'}

3条回答

网友

1楼 · 编辑于 2024-06-06 14:39:14

第一种形式适用于将unicode写入文件：

>>> s = u'\u0141\xf3d\u017a'
>>> with codecs.open('aa.txt', 'w', 'utf-8') as f:
...     f.write(s)
... 
>>> with codecs.open('aa.txt', 'r', 'utf-8') as f:
...     print f.read()
... 
Łódź

所发生的是，当您使用unicode（d）时，您正在为字典保存表示。在

^{2}$

相当于：

>>> unicode(repr(d))
u"{u'locality': u'\\u0141\\xf3d\\u017a'}"

所以，你不是真的在文件上写下。请注意，原始转义序列是转义的。u'\u0141'是Łchar，但是u'\u0141'是6个字符的字符串。在

由于Python字典没有不会进行这种转义的unicode表示，所以应该使用更好的序列化方法。如果要读取文件的应用程序支持json，那么使用json应该没问题。在

如果您真的需要将它写到一个不支持同一序列化方法的其他应用程序可读的文件中，那么您必须遍历dict并一次写下键、值对，而不是表示形式。在

网友

2楼 · 编辑于 2024-06-06 14:39:14

将ensure_ascii=False传递给json.dump*()，并使用codecs.open()。在

网友

3楼 · 编辑于 2024-06-06 14:39:14

文件是字节流，因此在保存到文件中之前，需要对unicode进行编码（以字节表示）。现在，当打开（从文件读取数据）时，您需要使用相同的解码（编码）方案将数据解码回unicode，例如utf-8

注意在文件中编写对象的序列化，而不是它的表示形式。使用json.dumps文件（d）获取序列化和json.loads（filecontent）读回它

相关问题更多 >

编程相关推荐

热门问题

热门文章