使用minidom解析XML
我在使用minidom的时候遇到了一些困难。我需要在文档对象模型(dom)中找到一个条目,更新它所包含的文本,然后保存这个文件。到目前为止,我找到特定元素的唯一方法是通过一种非常明确、直接、硬编码的方式:
doc.childNodes[0].childNodes[3].childNodes[5].childNodes[11].childNodes[1].childNodes[3]
我只是想更新一下在<typeBox type="counter">
中的第一个<text>
。
<typeBoxes>
<typeBox type="counter">
<text fontSize="140">123456</text>
<text fontSize="26">Foobar</text>
<incrementTextFieldNum>1</incrementTextFieldNum>
<timing>1</timing>
<increment>1</increment>
</typeBox>
<typeBox>
<image>images/foo.png</image>
<text fontSize="26">Foo</text>-->
</typeBox>
...
有什么建议吗?
2 个回答
0
如果你想在一个 childNodes
列表中找到第一个项目,可以试试下面的代码:
typeBox_node = next((node for node in typeBoxs_node.childNodes \
if node.localName == 'typeBox'))
如果你想对某个元素的每一个子节点都这样做,可以试试下面的代码:
for typeBox_node in doc.getElementsByTagName('typeBox'):
text_node = next((node for node in typeBox_node.childNodes \
if node.localName == 'text'))
4
minidom这个东西功能不太强大,现在大多数人都在用ElementTree的某种变体。从Python2.5版本开始,它就已经内置在里面了。
>>> from xml.etree import ElementTree as etree
>>> corpus = """<typeBoxes>
... <typeBox type="counter">
... <text fontSize="140">123456</text>
... <text fontSize="26">Foobar</text>
... <incrementTextFieldNum>1</incrementTextFieldNum>
... <timing>1</timing>
... <increment>1</increment>
... </typeBox>
... <typeBox>
... <image>images/foo.png</image>
... <text fontSize="26">Foo</text>-->
... </typeBox>
... </typeBoxes>"""
>>>
>>> doc = etree.fromstring(corpus)
>>>
>>> for typeBox in doc.findall('typeBox'):
... if typeBox.attrib.get('type') == 'counter':
... fieldnum = int(typeBox.find('incrementTextFieldNum').text)
... incr = int(typeBox.find('increment').text)
... text_field = typeBox.findall('text')[fieldnum-1]
... text_field.text = str(int(text_field.text) + incr)
...
>>> print etree.tostring(doc)
<typeBoxes>
<typeBox type="counter">
<text fontSize="140">123457</text>
<text fontSize="26">Foobar</text>
<incrementTextFieldNum>1</incrementTextFieldNum>
<timing>1</timing>
<increment>1</increment>
</typeBox>
<typeBox>
<image>images/foo.png</image>
<text fontSize="26">Foo</text>-->
</typeBox>
</typeBoxes>
>>>