如何让lxml.objectify忽略XML命名空间?
我需要处理一些看起来像这样的xml:
<ns2:foobarResponse xmlns:ns2="http://api.example.com">
<duration>206</duration>
<artist>
<tracks>...</tracks>
</artist>
</ns2:foobarResponse>
我发现了lxml库,还有它的objectify模块,这个模块可以让你用类似字典的方式在xml文档中遍历,感觉很像在用Python操作数据。
问题是:每次你尝试访问一个元素时,它都会使用一个奇怪的xml命名空间,像这样:
from lxml import objectify
tree = objectify.fromstring(xml)
print tree.artist
# ERROR: no such child: {http://api.example.com}artist
它试图用父命名空间来访问<artist>
,但是这个标签并没有使用这个命名空间。
有没有什么办法可以解决这个问题?谢谢!
2 个回答
3
仅供参考:请注意,自从lxml 2.3版本以来,这个功能就正常工作了。
来自lxml的更新日志:
" [...]
2.3(2011-02-06)新增功能
- 在查找子元素时,lxml.objectify将'{}tag'视为空命名空间,而不是父命名空间。
[...]"
示例:
>>> xml = """<ns2:foobarResponse xmlns:ns2="http://api.example.com">
... <duration>206</duration>
... <artist>
... <tracks>...</tracks>
... </artist>
... </ns2:foobarResponse>"""
>>> tree = objectify.fromstring(xml)
>>> print tree['{}artist']
artist = None [ObjectifiedElement]
tracks = '...' [StringElement]
>>>
8
根据lxml.objectify的文档,查找属性时默认会使用它们父元素的命名空间。
你可能想要的效果是这样的:
print tree["{}artist"]
如果你的子元素有一个非空的命名空间,比如“{http://foo/}artist”,那么使用这种QName语法是可以的。但不幸的是,当前的源代码把空命名空间当作没有命名空间来处理,所以objectify的查找功能会把空命名空间替换成父元素的命名空间,这样你就没办法了。
这可能是一个bug(“{}artist”应该可以工作),或者是需要向lxml团队提出的改进请求。
目前,最好的办法可能是:
print tree.xpath("artist")
我不太清楚使用xpath会对性能造成多大的影响,但这确实是可行的。