我需要从多个xml文件中检索大量信息。我正在尝试制作一个webscraper,但是我在编码时遇到了问题,同时仍然剥离了所有的名称空间(参见代码)。xml文件的内容是用丹麦语编写的,包含特殊字符“æå”。你知道吗
如何在剥离名称空间的同时更改打印的xml数据的文件编码?
import urllib
from StringIO import StringIO
from xml.etree import ElementTree as ET
import re
url = "http://loremIpsum.co "
xmlString = urllib.urlopen(url).read() #data with namespaces
it = ET.iterparse(StringIO(xmlString))
for _, el in it:
if '}' in el.tag:
el.tag = el.tag.split('}', 1)[1] # strip all namespaces
root = it.root
print root.findtext("loremIpsum/loremIpsum")
当前打印输出,如果root.findtext("loremIpsum/loremIpsum")
是特殊字符“ø”:
u'\xd8
预期产量:
ø
目前没有回答
相关问题 更多 >
编程相关推荐