根据节点属性对使用getElementsByTagName获取的节点排序

3 投票

2 回答

2749 浏览

数据工程师

提问于 2025-04-16 16:08

编辑

这里的问题出在字典上，之前提到的答案是有效的，但字典总是按照自己的方式来处理。对于这个情况，排序字典是解决办法，不过现在我知道怎么通过属性来排序节点了，你也学会了。

结束

我很高兴能问关于Python的问题，这里是我遇到的情况：

def parse_fixed_data(self, format):
    return_message = {}
    nodes = format.getElementsByTagName('data')
    for node in nodes:
        return_message[node.attributes['name'].value] = self.raw_message[int(node.attributes['from'].value):int(node.attributes['to'].value)] 
    return return_message

这几乎完美地运行了。'format'变量是一个已经解析过的节点，里面包含了一堆'data'节点。这里是xml内容：

<pmbmsg id='pmb_header'>
    <version maj='01' min='00' rev='0000' type='FIXED' delimeter=''>
        <data seq='1'   from='0'   to='3'    name='message_type'/>
        <data seq='2'   from='3'   to='13'   name='version'/>
        <data seq='3'   from='13'  to='33'   name='from_system'/>
        <data seq='4'   from='33'  to='53'   name='to_system'/>
        <data seq='5'   from='53'  to='73'   name='family'/>
        <data seq='6'   from='73'  to='83'   name='priority'/>
        <data seq='7'   from='83'  to='103'  name='msg_format_id'/>
        <data seq='8'   from='103' to='135'  name='msg_unique_id'/>
        <data seq='9'   from='135' to='161'  name='created'/>
        <data seq='10'  from='161' to='163'  name='hop_count'/>
        <data seq='11'  from='163' to='173'  name='original_msg_format_id'/>
        <data seq='12'  from='173' to='205'  name='original_unique_id'/>
        <data seq='13'  from='205' to='245'  name='padding'/>
        <data seq='14'  from='245' to='4086' name='message_data'/>
    </version>
</pmbmsg>

这段代码运行得很好，但我得到的字典元素顺序是这样的：

u'to_system'            
u'padding'          
u'original_msg_format_id'   
u'original_unique_id'       
u'family'           
u'created'          
u'msg_format_id'        
u'hop_count'            
u'msg_unique_id'            
u'priority'         
u'version'          
u'from_system'          
u'message_type'         
u'message_data'

(值已移除)

我希望它们能按照在xml中出现的顺序返回，而它们的seq属性可以帮助实现这一点。在Python代码的这一行之后：

nodes = format.getElementsByTagName('data')

...有没有什么函数可以对节点进行排序？或者在获取节点时，有没有什么方法可以告诉它们要排序？你可能会想，它应该自然地按照xml的书写顺序来处理吧？

如果没有什么函数可以自动帮我做到这一点，我可以自己想办法解决。

数据结构编程技巧 xml解析字典处理属性排序 XML节点节点获取节点排序

2 个回答

从Python 2.7开始，OrderedDict是一个新功能。

回答于 2025-04-16 由 Python大师

分享举报

这些节点在XML中并没有按照名字排序，这一点在节点列表中也能看出来。它们会按照被遍历的顺序出现。列表是有顺序的，而字典则没有。你遇到的问题是，当你遍历字典的键时，属性名称的顺序是乱的，除了对字典进行排序之外，没有其他办法解决这个问题。

你可以在处理字典之前先对节点进行排序（不过这并不能保证字典本身会有序）：

>>> [node.attributes['name'].value for node in sorted(nodes, key=lambda x: x.attributes['name'].value)]
[u'created', u'family', u'from_system', u'hop_count', 
u'message_data', u'message_type', u'msg_format_id', u'msg_unique_id', 
u'original_msg_format_id', u'original_unique_id', u'padding', u'priority', 
u'to_system', u'version']

或者你可以使用collections.OrderedDict（在Python 2.7及以上版本中可用），来创建return_message，这样就能保持顺序。

# No example because I don't have acces to Python 2.7

或者你可以使用sorted()来根据值对字典进行排序。

>>> import operator
>>> sorted_return_message = sorted(return_message.iteritems(), key=operator.itemgetter(0))
>>> for k,v in sorted_return_message: print k
... 
created
family
from_system
hop_count
message_data
message_type
msg_format_id
msg_unique_id
original_msg_format_id
original_unique_id
padding
priority
to_system
version

或者你可以在运行时直接对键进行排序：

>>> for k in sorted(return_message):
...     print k
... 
created
family
from_system
hop_count
message_data
message_type
msg_format_id
msg_unique_id
original_msg_format_id
original_unique_id
padding
priority
to_system
version

回答于 2025-04-16 由 Python大师

分享举报

根据节点属性对使用getElementsByTagName获取的节点排序

2 个回答

撰写回答