无根的Python XML解析

11 投票
3 回答
10142 浏览
提问于 2025-04-18 07:42

我想解析一个相当大的类似XML的文件,但这个文件没有根元素。文件的格式是:

<tag1>
<tag2>
</tag2>
</tag1>

<tag1>
<tag3/>
</tag1>

我尝试过的:

  1. 尝试使用ElementTree,但它返回了一个“没有根”的错误。(有没有其他的Python库可以用来解析这个文件?)
  2. 尝试添加一个额外的标签来包裹整个文件,然后再用ElementTree解析。不过,我希望能用一些更有效的方法,这样就不需要修改原始的XML文件。

3 个回答

8

那我们可以试试不直接编辑文件,而是做一些这样的事情

import xml.etree.ElementTree as ET

with file("xml-file.xml") as f:
    xml_object = ET.fromstringlist(["<root>", f.read(), "</root>"])
9

ElementTree.fromstringlist 这个函数可以接受一个可迭代的对象(也就是能一个一个输出字符串的东西)。

你可以把它和 itertools.chain 一起使用:

import itertools
import xml.etree.ElementTree as ET
# import xml.etree.cElementTree as ET

with open('xml-like-file.xml') as f:
    it = itertools.chain('<root>', f, '</root>')
    root = ET.fromstringlist(it)

# Do something with `root`
root.find('.//tag3')
10

lxml.html 可以解析 片段

from lxml import html
s = """<tag1>
 <tag2>
 </tag2>
</tag1>

<tag1>
 <tag3/>
</tag1>"""
doc = html.fromstring(s)
for thing in doc:
    print thing
    for other in thing:
        print other
"""
>>> 
<Element tag1 at 0x3411a80>
<Element tag2 at 0x3428990>
<Element tag1 at 0x3428930>
<Element tag3 at 0x3411a80>
>>>
"""

感谢 这个SO回答

如果有多层嵌套的话:

def flatten(nested):
    """recusively flatten nested elements

    yields individual elements
    """
    for thing in nested:
        yield thing
        for other in flatten(thing):
            yield other
doc = html.fromstring(s)
for thing in flatten(doc):
    print thing

同样,lxml.etree.HTML 也能解析这个。它会自动添加html和body标签:

d = etree.HTML(s)
for thing in d.iter():
    print thing

""" 
<Element html at 0x3233198>
<Element body at 0x322fcb0>
<Element tag1 at 0x3233260>
<Element tag2 at 0x32332b0>
<Element tag1 at 0x322fcb0>
<Element tag3 at 0x3233148>
"""

撰写回答