无根的Python XML解析

11 投票

3 回答

10142 浏览

提问于 2025-04-18 07:42

我想解析一个相当大的类似XML的文件，但这个文件没有根元素。文件的格式是：

<tag1>
<tag2>
</tag2>
</tag1>

<tag1>
<tag3/>
</tag1>

我尝试过的：

尝试使用ElementTree，但它返回了一个“没有根”的错误。（有没有其他的Python库可以用来解析这个文件？）
尝试添加一个额外的标签来包裹整个文件，然后再用ElementTree解析。不过，我希望能用一些更有效的方法，这样就不需要修改原始的XML文件。

数据处理文件格式 elementtree 解析库 xml解析无根元素

3 个回答

那我们可以试试不直接编辑文件，而是做一些这样的事情

import xml.etree.ElementTree as ET

with file("xml-file.xml") as f:
    xml_object = ET.fromstringlist(["<root>", f.read(), "</root>"])

回答于 2025-04-18 由 Python大师

分享举报

ElementTree.fromstringlist 这个函数可以接受一个可迭代的对象（也就是能一个一个输出字符串的东西）。

你可以把它和 itertools.chain 一起使用：

import itertools
import xml.etree.ElementTree as ET
# import xml.etree.cElementTree as ET

with open('xml-like-file.xml') as f:
    it = itertools.chain('<root>', f, '</root>')
    root = ET.fromstringlist(it)

# Do something with `root`
root.find('.//tag3')

回答于 2025-04-18 由 Python大师

分享举报

lxml.html 可以解析片段：

from lxml import html
s = """<tag1>
 <tag2>
 </tag2>
</tag1>

<tag1>
 <tag3/>
</tag1>"""
doc = html.fromstring(s)
for thing in doc:
    print thing
    for other in thing:
        print other
"""
>>> 
<Element tag1 at 0x3411a80>
<Element tag2 at 0x3428990>
<Element tag1 at 0x3428930>
<Element tag3 at 0x3411a80>
>>>
"""

感谢这个SO回答

如果有多层嵌套的话：

def flatten(nested):
    """recusively flatten nested elements

    yields individual elements
    """
    for thing in nested:
        yield thing
        for other in flatten(thing):
            yield other
doc = html.fromstring(s)
for thing in flatten(doc):
    print thing

同样，lxml.etree.HTML 也能解析这个。它会自动添加html和body标签：

d = etree.HTML(s)
for thing in d.iter():
    print thing

""" 
<Element html at 0x3233198>
<Element body at 0x322fcb0>
<Element tag1 at 0x3233260>
<Element tag2 at 0x32332b0>
<Element tag1 at 0x322fcb0>
<Element tag3 at 0x3233148>
"""

回答于 2025-04-18 由 Python大师

分享举报

无根的Python XML解析

3 个回答

撰写回答