Python：使用ElementTree更新XML文件，同时尽可能地保留布局

def elementTreeRootAndNamespace(xml_file): from xml.etree import ElementTree import re element_tree = ElementTree.parse(xml_file) # Search for a namespace on the root tag namespace_search = re.search('^({\S+})', element_tree.getroot().tag) # Keep the namespace empty if none exists, if a namespace exists set # namespace to {namespacename} namespace = '' if namespace_search: namespace = namespace_search.group(1) return element_tree, namespace

elementTree, namespace = elementTreeRootAndNamespace('houses.xml') # Insert the namespace before each tag when when finding current number of dogs, # as ElementTree requires the namespace to be prefixed within {...} when a # namespace is used in the document. dogs = elementTree.find('{ns}house/{ns}dogs'.format(ns = namespace)) # Increase the number of dogs by one dogs.text = str(int(dogs.text) + 1) # Write the result to the new file houses2.xml. elementTree.write('houses2.xml')

3条回答

网友

1楼 · 编辑于 2024-05-15 10:19:38

不幸的是，往返并不是一个小问题。对于XML，除非使用特殊的解析器（比如DecentXML），否则通常不可能保留原始文档。

根据您的需要，您可以选择以下选项：

如果您控制了源代码，并且可以通过单元测试保护代码，那么您可以编写自己的简单解析器。这个解析器不接受XML，只接受有限的子集。例如，您可以将整个文档作为字符串读取，然后使用Python的字符串操作来定位<dogs>，并替换下一个<之前的任何内容。乱劈？对。
你可以过滤输出。XML只允许字符串<ns0:位于一个位置，因此您可以搜索并用<替换它，然后用<group xmlns:ns0="→<group xmlns="替换它。除非您的XML中有CDATA，否则这是非常安全的。
您可以编写自己的简单XML解析器。将输入作为字符串读取，然后为每对<>及其在输入中的位置创建元素。这允许您快速分离输入，但仅适用于小输入。

网友

2楼 · 编辑于 2024-05-15 10:19:38

基于XML的解决方案是为ElementTree编写一个helper类，该类：

在解析为ElementTree之前在抓取XML声明行在写入时，如果不同时写入编码属性（我检查了源代码），则无法写入XML声明行。
解析输入文件一次，获取根元素的命名空间。向ElementTree注册该命名空间，将空字符串作为前缀。完成后，使用ElementTree再次使用该新设置分析源文件。

它有一个主要缺点：

XML注释丢失。我了解到，对于这种情况，这是不可接受的（我最初认为输入数据没有任何注释，但事实证明它有）。

我的助手类示例：

from xml.etree import ElementTree as ET
import re


class ElementTreeHelper():
    def __init__(self, xml_file_name):
        xml_file = open(xml_file_name, "rb")

        self.__parse_xml_declaration(xml_file)

        self.element_tree = ET.parse(xml_file)
        xml_file.seek(0)

        root_tag_namespace = self.__root_tag_namespace(self.element_tree)
        self.namespace = None
        if root_tag_namespace is not None:
            self.namespace = '{' + root_tag_namespace + '}'
            # Register the root tag namespace as having an empty prefix, as
            # this has to be done before parsing xml_file we re-parse.
            ET.register_namespace('', root_tag_namespace)
            self.element_tree = ET.parse(xml_file)

    def find(self, xpath_query):
        return self.element_tree.find(xpath_query)

    def write(self, xml_file_name):
        xml_file = open(xml_file_name, "wb")
        if self.xml_declaration_line is not None:
            xml_file.write(self.xml_declaration_line + '\n')

        return self.element_tree.write(xml_file)

    def __parse_xml_declaration(self, xml_file):
        first_line = xml_file.readline().strip()
        if first_line.startswith('<?xml') and first_line.endswith('?>'):
            self.xml_declaration_line = first_line
        else:
            self.xml_declaration_line = None
        xml_file.seek(0)

    def __root_tag_namespace(self, element_tree):
        namespace_search = re.search('^{(\S+)}', element_tree.getroot().tag)
        if namespace_search is not None:
            return namespace_search.group(1)
        else:
            return None


def __main():
    el_tree_hlp = ElementTreeHelper('houses.xml')

    dogs_tag = el_tree_hlp.element_tree.getroot().find(
                   '{ns}house/{ns}dogs'.format(
                         ns=el_tree_hlp.namespace))
    one_dog_added = int(dogs_tag.text.strip()) + 1
    dogs_tag.text = str(one_dog_added)

    el_tree_hlp.write('hejsan.xml')

if __name__ == '__main__':
    __main()

输出：

<?xml version="1.0"?>
<group xmlns="http://dogs.house.local">
    <house>
            <id>2821</id>
            <dogs>3</dogs>
    </house>
</group>

如果有人对此解决方案有改进，请毫不犹豫地获取代码并加以改进。

网友
3楼 · 编辑于 2024-05-15 10:19:38

当Save xml add default_namespace参数很容易避免ns0时，在我的代码中

键代码：xmltree.write（xmlfile，“utf-8”，默认的_namespace=xmlnamespace）

if os.path.isfile(xmlfiile):
            xmltree = ET.parse(xmlfiile)
            root = xmltree.getroot()
            xmlnamespace = root.tag.split('{')[1].split('}')[0]  //get namespace

            initwin=xmltree.find("./{"+ xmlnamespace +"}test")
            initwin.find("./{"+ xmlnamespace +"}content").text = "aaa"
            xmltree.write(xmlfiile,"utf-8",default_namespace=xmlnamespace)

相关问题更多 >

编程相关推荐

热门问题

热门文章