如何让lxml.objectify忽略XML命名空间？

4 投票

2 回答

3308 浏览

提问于 2025-04-16 00:20

我需要处理一些看起来像这样的xml：

<ns2:foobarResponse xmlns:ns2="http://api.example.com">
  <duration>206</duration>
  <artist>
    <tracks>...</tracks>
  </artist>
</ns2:foobarResponse>

我发现了lxml库，还有它的objectify模块，这个模块可以让你用类似字典的方式在xml文档中遍历，感觉很像在用Python操作数据。
问题是：每次你尝试访问一个元素时，它都会使用一个奇怪的xml命名空间，像这样：

from lxml import objectify

tree = objectify.fromstring(xml)
print tree.artist
# ERROR: no such child: {http://api.example.com}artist

它试图用父命名空间来访问<artist>，但是这个标签并没有使用这个命名空间。

有没有什么办法可以解决这个问题？谢谢！

数据处理 lxml 编程技巧元素访问 xml解析 xml命名空间 objectify模块字典方式

2 个回答

仅供参考：请注意，自从lxml 2.3版本以来，这个功能就正常工作了。

来自lxml的更新日志：

" [...]

2.3（2011-02-06）新增功能

在查找子元素时，lxml.objectify将'{}tag'视为空命名空间，而不是父命名空间。

[...]"

示例：

>>> xml = """<ns2:foobarResponse xmlns:ns2="http://api.example.com">
...   <duration>206</duration>
...   <artist>
...     <tracks>...</tracks>
...   </artist>
... </ns2:foobarResponse>"""
>>> tree = objectify.fromstring(xml)
>>> print tree['{}artist']
artist = None [ObjectifiedElement]
    tracks = '...' [StringElement]
>>>

回答于 2025-04-16 由 Python大师

分享举报

根据lxml.objectify的文档，查找属性时默认会使用它们父元素的命名空间。

你可能想要的效果是这样的：

print tree["{}artist"]

如果你的子元素有一个非空的命名空间，比如“{http://foo/}artist”，那么使用这种QName语法是可以的。但不幸的是，当前的源代码把空命名空间当作没有命名空间来处理，所以objectify的查找功能会把空命名空间替换成父元素的命名空间，这样你就没办法了。

这可能是一个bug（“{}artist”应该可以工作），或者是需要向lxml团队提出的改进请求。

目前，最好的办法可能是：

print tree.xpath("artist")

我不太清楚使用xpath会对性能造成多大的影响，但这确实是可行的。

回答于 2025-04-16 由 Python大师

分享举报

如何让lxml.objectify忽略XML命名空间？

2 个回答

撰写回答