重新：UnicodeEncodeError：ascii codec无法编码

import os, re, csv, string, operator import xml.etree.cElementTree as ET import codecs def parseEO(doc): #getting the basic structure tree = ET.ElementTree(file=doc) root = tree.getroot() agencycodes = [] rins = [] titles =[] elements = [agencycodes, rins, titles] #pulling in the text from the fields for elem in tree.iter(): if elem.tag == "AGENCY_CODE": agencycodes.append(int(elem.text)) elif elem.tag == "RIN": rins.append(elem.text) elif elem.tag == "TITLE": titles.append(elem.text) with open('parsetest.csv', 'w') as f: writer = csv.writer(f) writer.writerows(zip(*elements)) parseEO('EO_file.xml')

--------------------------------------------------------------------------- UnicodeEncodeError Traceback (most recent call last) <ipython-input-15-28d095d44f02> in <module>() ----> 1 execfile(r'/parsingtest.py') # PYTHON-MODE /Users/ian/Desktop/parsingtest.py in <module>() 91 writer.writerows(zip(*elements)) 92 ---> 93 parseEO('/EO_file.xml') 94 95 /parsingtest.py in parseEO(doc) 89 with open('parsetest.csv', 'w') as f: 90 writer = csv.writer(f) ---> 91 writer.writerows(zip(*elements)) 92 93 parseEO('/EO_file.xml') UnicodeEncodeError: 'ascii' codec can't encode character u'\x97' in position 32: ordinal not in range(128)

2条回答

网友

1楼 · 编辑于 2024-04-18 17:10:38

听起来xml文件中的某个地方有一个unicode字符。Unicode不同于编码为utf8的字符串。

python2.7csv库不支持unicode字符，因此在将数据转储到csv文件之前，必须通过对其进行编码的函数运行数据。

def normalize(s):
    if type(s) == unicode: 
        return s.encode('utf8', 'ignore')
    else:
        return str(s)

所以你的代码如下：

for elem in tree.iter():
    if elem.tag == "AGENCY_CODE":
        agencycodes.append(int(elem.text))
    elif elem.tag == "RIN":
        rins.append(normalize(elem.text))
    elif elem.tag == "TITLE":
        titles.append(normalize(elem.text))

网友

2楼 · 编辑于 2024-04-18 17:10:38

您正在分析XML；XML API将unicode值交给您。然后尝试将unicode数据写入CSV文件而不首先对其进行编码。然后，Python尝试为您编码，但失败了。您可以在回溯中看到这一点，失败的是.writerows()调用，错误告诉您编码失败，而不是解码（解析XML）。

您需要选择一种编码，然后在写入之前对数据进行编码：

for elem in tree.iter():
    if elem.tag == "AGENCY_CODE":
        agencycodes.append(int(elem.text))
    elif elem.tag == "RIN":
        rins.append(elem.text.encode('utf8'))
    elif elem.tag == "TITLE":
        titles.append(elem.text.encode('utf8'))

我使用UTF8编码是因为它可以处理任何Unicode代码点，但您需要做出自己的明确选择。

相关问题更多 >

编程相关推荐

热门问题

热门文章