用Python和ElementTree对XML文档进行排序

<trk> <name>GPSRoute.XML</name> <trkseg> <trkpt lat="37.077882" lon="-112.242785"> <ele>1688.00</ele> <time>2020-04-18T01:56:39.80Z</time> </trkpt> <extensions> <name>14</name> <gte:color>#00ce00</gte:color> </extensions> </trkseg> <trkseg> <trkpt lat="37.077888" lon="-112.242783"> <ele>1688.00</ele> <time>2020-04-18T01:56:39.80Z</time> </trkpt> <extensions> <name>1</name> <gte:color>#00ce00</gte:color> </extensions> </trkseg> </trk>

import xml.etree.ElementTree as ET tree = ET.parse('Filename.xml') root = tree.getroot() data = [] for track in root: for segment in track: for extension in segment: for name in extension.findall('name'): print(name.text) data.append((name)) data.sort() tree.write('Sorted.xml')

2条回答

网友

1楼 · 编辑于 2024-04-24 22:12:40

我认为，在使用XPath3.1之前，并没有真正的方法对xml进行排序，但也有可能在这一点上混淆视听

请注意，由于您问题中的xml无效（您有未声明的名称空间），因此我使用了一个更宽容的html解析器。对于实际代码，您应该使用xml解析器，如下所示

这段代码的作用是，从每个<trkseg>父节点收集每个<name>子节点（即您的目标编号）的节点值，将它们保存到列表中，对列表进行排序，使用排序后的列表按排序顺序再次选择<trkseg>节点，并使用它们（连同开始和结束标记）创建新的xml

import lxml.html as lh # with actual xml you would probably use "from lxml import etree"
trk = """your xml above"""

doc = lh.fromstring(trk) # with actual xml you should probably use "doc = etree.XML(trk)"

names = []
new_trk = """<trk>
    <name>GPSRoute.XML</name>""" # this is the preamble which is left untouched
for nam in doc.xpath('//extensions//name'):
    names.append(nam.text) #grab the numbers
for name in sorted(names): #sort the grabbed numbers
    target = doc.xpath(f'//trkseg[.//name/text()={name}]')
    for t in target:
        new_trk += lh.tostring(t).decode()
new_trk += '</trk>' # append the closing tag, which is also left untouched
print(new_trk)

输出：

<trk>
    <name>GPSRoute.XML</name><trkseg>
        <trkpt lat="37.077888" lon="-112.242783">
            <ele>1688.00</ele>
            <time>2020-04-18T01:56:39.80Z</time>
        </trkpt>
        <extensions>
            <name>1</name>
            <color>#00ce00</color>
        </extensions>
    </trkseg>
<trkseg>
        <trkpt lat="37.077882" lon="-112.242785">
            <ele>1688.00</ele>
            <time>2020-04-18T01:56:39.80Z</time>
        </trkpt>
        <extensions>
            <name>14</name>
            <color>#00ce00</color>
        </extensions>
    </trkseg>
    </trk>

网友

2楼 · 编辑于 2024-04-24 22:12:40

可以将Element对象视为子元素作为成员的iterable。这使得对根元素的子元素进行排序变得容易。在这种情况下，我们需要为第一个子项（<name>GPSRoute.XML</name>）创建一个例外，它不参与排序

XML文档中有一个未声明的名称空间前缀，因此为了使其工作，我将gte:color更改为color

import xml.etree.ElementTree as ET

tree = ET.parse('Filename.xml')
root = tree.getroot()

# Temporarily remove the 'name' element
name = root.find("name")
root.remove(name)

# Sort the 'trkseg' elements using 'extensions/name' as key
root[:] = sorted(root, key=lambda trkseg: int(trkseg.findtext("extensions/name")))

# Put the 'name' element back
root.insert(0, name)

print(ET.tostring(root).decode())

结果:

<trk>
  <name>GPSRoute.XML</name>
  <trkseg>
    <trkpt lat="37.077888" lon="-112.242783">
      <ele>1688.00</ele>
      <time>2020-04-18T01:56:39.80Z</time>
    </trkpt>
    <extensions>
      <name>1</name>
      <color>#00ce00</color>
    </extensions>
  </trkseg>
<trkseg>
    <trkpt lat="37.077882" lon="-112.242785">
      <ele>1688.00</ele>
      <time>2020-04-18T01:56:39.80Z</time>
    </trkpt>
    <extensions>
      <name>14</name>
      <color>#00ce00</color>
    </extensions>
  </trkseg>
  </trk>

相关问题更多 >

编程相关推荐

热门问题

热门文章