如何用Python Elementree访问XMLNS属性？

26 投票

3 回答

25001 浏览

提问于 2025-04-15 17:19

怎么通过使用ElementTree来访问NS属性呢？

用下面的代码：

<data xmlns="http://www.foo.net/a" xmlns:a="http://www.foo.net/a" book="1" category="ABS" date="2009-12-22">

当我尝试用root.get('xmlns')时，返回的是None，而Category和Date都没问题，有谁能帮帮我吗？

3 个回答

试试这个：

import xml.etree.ElementTree as ET
import re
import sys

with open(sys.argv[1]) as f:
    root = ET.fromstring(f.read())
    xmlns = ''
    m = re.search('{.*}', root.tag)
    if m:
        xmlns = m.group(0)
    print(root.find(xmlns + 'the_tag_you_want').text)

回答于 2025-04-15 由 Python大师

分享举报

看看effbot的命名空间文档和示例，特别是parse_map这个函数。它教你怎么给每个元素添加一个ns_map属性，这个属性里包含了与该元素相关的前缀和URI的映射。

不过，这样做会把ns_map属性加到所有元素上。对我来说，我发现我需要一个全局的命名空间映射，这样可以更方便地查找元素，而不是硬编码在里面。

这是我想到的解决办法：

import elementtree.ElementTree as ET

def parse_and_get_ns(file):
    events = "start", "start-ns"
    root = None
    ns = {}
    for event, elem in ET.iterparse(file, events):
        if event == "start-ns":
            if elem[0] in ns and ns[elem[0]] != elem[1]:
                # NOTE: It is perfectly valid to have the same prefix refer
                #     to different URI namespaces in different parts of the
                #     document. This exception serves as a reminder that this
                #     solution is not robust.    Use at your own peril.
                raise KeyError("Duplicate prefix with different URI found.")
            ns[elem[0]] = "{%s}" % elem[1]
        elif event == "start":
            if root is None:
                root = elem
    return ET.ElementTree(root), ns

通过这个方法，你可以解析一个xml文件，并得到一个包含命名空间映射的字典。所以，如果你有一个像下面这样的xml文件（"my.xml"）：

<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0"
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:dc="http://purl.org/dc/elements/1.1/"\
>
<feed>
  <item>
    <title>Foo</title>
    <dc:creator>Joe McGroin</dc:creator>
    <description>etc...</description>
  </item>
</feed>
</rss>

你就可以使用xml命名空间，获取像dc:creator这样的元素的信息：

>>> tree, ns = parse_and_get_ns("my.xml")
>>> ns
{u'content': '{http://purl.org/rss/1.0/modules/content/}',
u'dc': '{http://purl.org/dc/elements/1.1/}'}
>>> item = tree.find("/feed/item")
>>> item.findtext(ns['dc']+"creator")
'Joe McGroin'

回答于 2025-04-15 由 Python大师

分享举报

我觉得你需要的是 element.tag。注意，你的例子缺少一个结尾的斜杠，这样就不平衡了，无法解析。我在我的例子中加上了一个。

>>> from xml.etree import ElementTree as ET
>>> data = '''<data xmlns="http://www.example.net/a"
...                 xmlns:a="http://www.example.net/a"
...                 book="1" category="ABS" date="2009-12-22"/>'''
>>> element = ET.fromstring(data)
>>> element
<Element {http://www.example.net/a}data at 1013b74d0>
>>> element.tag
'{http://www.example.net/a}data'
>>> element.attrib
{'category': 'ABS', 'date': '2009-12-22', 'book': '1'}

如果你只是想知道 xmlns 的 URI，可以用一个函数把它分开，像这样：

def tag_uri_and_name(elem):
    if elem.tag[0] == "{":
        uri, ignore, tag = elem.tag[1:].partition("}")
    else:
        uri = None
        tag = elem.tag
    return uri, tag

想了解更多关于 ElementTree 中的命名空间和合格名称的信息，可以查看 effbot 的例子。

回答于 2025-04-15 由 Python大师

分享举报

如何用Python Elementree访问XMLNS属性？

3 个回答

撰写回答