Python解码对我有效但对其他人无效

Question

我相信这个问题在某个地方已经被回答过，但我不知道该搜索什么。我的问题其实不是我自己的，而是其他人的。简单来说，我有一个Python脚本用于文本解码，对我来说解码没问题，但其他用户却失败了，即使他们用的是相同的代码和输入。

我写了一个脚本 (在Bitbucket上的源代码)，这个脚本可以把Windows Mobile 6的短信（通过PIM Backup输出）转换成Android短信（通过SMS Backup & Restore输入），具体是把PIM Backup的内容转换成SMSB&R兼容的XML格式。

现在，PIM Backup输出的内容是用UCS-2小端格式，这个格式很好，因为它支持各种国际交流。在我的脚本中，我使用Python内置的字符串解码来加载内容，并创建一个csv读取对象，代码如下：

# Read the file contents
sms_text = csv_file.read().decode('utf-16').split(os.linesep)
sms_reader = csv.reader(sms_text, delimiter=';', quotechar='"', escapechar='\\')

然后我用以下代码处理csv读取器的每一行：

row = sms_reader.next()

我把这个放在一个try块里，因为偶尔会抛出UnicodeEncodeError，当某些东西不太对劲时。但对我来说，这种情况非常少见。

我的问题是，其他用户在使用非ASCII字符的短信时，这个错误几乎总是会出现。最近有个德国用户联系我，说他只有大约10%的短信能正确解码。他把他的.pib文件发给我，我用我的脚本处理了一遍，结果没有遇到任何问题。所有输出看起来都是标准的ANSI/ISO 8859-1/Windows-1252等，所以并不复杂。

我想知道，为什么这些用户在解码输入时会失败，而我却没有问题，使用的代码（和Python版本）完全一样？作为后续问题，我该如何修改我的脚本，让它对所有人都有效？

编辑：我忘记提一个重要的点，我是在Eclipse中使用PyDev运行这个脚本的。当我在命令提示符下运行时，遇到的所有问题和其他人一样！我仍然不知道问题出在哪里，但希望这能帮助缩小范围。

以下是一个非常简单的.csm文件示例（从.pib文件提取，名字和号码已更改），里面有非标准字符：

Msg Id;Sender Name;Sender Address;Sender AddressType;Prefix;Subject;Body;BodyType;Folder;Account;Msg Class;Content Length;Msg Size;Msg Flags;Msg Status;Modify Time;Delivery Time;Recipient Nbr;Recipients;Attachment Nbr;Attachments
0x00,0x00;"491703000000";"491703000000";;"";"Wir wünschen dem rainer alles gute und viel gesundheit! Bis nächste woche, wir hören uns bis dahin noch mal.. Liebe grüße aus md!";"";0;"\\%MDF3";"SMS";"IPM.SMStext";;;33;262144;2007,09,23,19,44,32;2007,09,23,19,44,31;1;"851980\;Gela\;+491739000000\;1\;0\;SMS";0;""

不过，仅仅通过处理这个字符串很难准确找出问题，因为我自己没有遇到这个异常。

还有一个我确实遇到问题的例子（即使在Eclipse中）是：

Msg Id;Sender Name;Sender Address;Sender AddressType;Prefix;Subject;Body;BodyType;Folder;Account;Msg Class;Content Length;Msg Size;Msg Flags;Msg Status;Modify Time;Delivery Time;Recipient Nbr;Recipients;Attachment Nbr;Attachments
0x00,0x00;"Jonas/M";"\"Jonas/M\" <+46737000000>";;"";"Den går 28 ";"";2;"\\%MDF4";"SMS";"IPM.SMStext";0;24;0;0;2011,03,12,21,15,19;2011,03,12,21,16,17;0;"";0;""
0x00,0x00;"Don Vär";"\"Don Vär\" <+46709000000>";;"";"försöke® dhdjhdhhdjehdejehţýùhbfvfghjujhuikjkłánjajnxsjajmsxnsmajmkjsnshdjnsjmwkjhdnjsjmwkjdhjjdewjjwjwjw®";"";2;"\\%MDF1";"SMS";"IPM.SMStext";0;212;1;0;2010,05,17,15,56,49;2010,05,17,15,55,46;0;"";0;""

异常追踪信息是：

Traceback (most recent call last):
  File "C:\Programming\workspace\pim2smsbr\src\pim2smsbr.py", line 207, in <module>
    convert(args.source[0], args.out)
  File "C:\Programming\workspace\pim2smsbr\src\pim2smsbr.py", line 98, in convert
    row = sms_reader.next()
  File "C:\Python27\lib\encodings\cp1252.py", line 12, in encode
    return codecs.charmap_encode(input,errors,encoding_table)
UnicodeEncodeError: 'charmap' codec can't encode character u'\ue403' in position 77: character maps to <undefined>

更新：

John Machin的回答非常有效。我只改了一行，问题就解决了。把：

sms_text = csv_file.read().decode('utf-16').split(os.linesep)

改为：

sms_text = csv_file.read().decode('utf-16').encode('utf-8').splitlines()

异常处理字符编码国际化数据转换脚本调试 CSV处理 ucs-2 文本解码

Python解码对我有效但对其他人无效

1 个回答

撰写回答