无根的Python XML解析
我想解析一个相当大的类似XML的文件,但这个文件没有根元素。文件的格式是:
<tag1>
<tag2>
</tag2>
</tag1>
<tag1>
<tag3/>
</tag1>
我尝试过的:
- 尝试使用ElementTree,但它返回了一个“没有根”的错误。(有没有其他的Python库可以用来解析这个文件?)
- 尝试添加一个额外的标签来包裹整个文件,然后再用ElementTree解析。不过,我希望能用一些更有效的方法,这样就不需要修改原始的XML文件。
3 个回答
8
那我们可以试试不直接编辑文件,而是做一些这样的事情
import xml.etree.ElementTree as ET
with file("xml-file.xml") as f:
xml_object = ET.fromstringlist(["<root>", f.read(), "</root>"])
9
ElementTree.fromstringlist
这个函数可以接受一个可迭代的对象(也就是能一个一个输出字符串的东西)。
你可以把它和 itertools.chain
一起使用:
import itertools
import xml.etree.ElementTree as ET
# import xml.etree.cElementTree as ET
with open('xml-like-file.xml') as f:
it = itertools.chain('<root>', f, '</root>')
root = ET.fromstringlist(it)
# Do something with `root`
root.find('.//tag3')
10
lxml.html
可以解析 片段:
from lxml import html
s = """<tag1>
<tag2>
</tag2>
</tag1>
<tag1>
<tag3/>
</tag1>"""
doc = html.fromstring(s)
for thing in doc:
print thing
for other in thing:
print other
"""
>>>
<Element tag1 at 0x3411a80>
<Element tag2 at 0x3428990>
<Element tag1 at 0x3428930>
<Element tag3 at 0x3411a80>
>>>
"""
感谢 这个SO回答
如果有多层嵌套的话:
def flatten(nested):
"""recusively flatten nested elements
yields individual elements
"""
for thing in nested:
yield thing
for other in flatten(thing):
yield other
doc = html.fromstring(s)
for thing in flatten(doc):
print thing
同样,lxml.etree.HTML
也能解析这个。它会自动添加html和body标签:
d = etree.HTML(s)
for thing in d.iter():
print thing
"""
<Element html at 0x3233198>
<Element body at 0x322fcb0>
<Element tag1 at 0x3233260>
<Element tag2 at 0x32332b0>
<Element tag1 at 0x322fcb0>
<Element tag3 at 0x3233148>
"""