使用lxm将XML片段插入XML文档

2条回答

网友

1楼 · 编辑于 2024-05-29 08:14:52

{cda>只向列表添加元素。此操作不会对XML树执行任何操作。在

要将附加的descriptiveKeywords节点作为主控文档中的同级节点插入，可以执行以下操作：

# Get the last of the descriptiveKeywords nodes in the master document
last_kw = keywordList[-1]
# Get the node's parent and its position (index) within the parent
kw_parent = last_kw.getparent()
ix = kw_parent.index(last_kw)

# Insert the descriptiveKeyword nodes from the fragment file as successive siblings
for dk in DKeywords:
    kw_parent.insert(ix+1, dk)
    ix += 1

网友

2楼 · 编辑于 2024-05-29 08:14:52

正如我多次回答的那样，考虑一下XSLT，这是一种专门用来转换XML文件的语言，当需要操作XML文件时，比如合并文档。Python的lxml模块可以运行xslt1.0脚本。在

具体地说，XSLT维护document()函数，您可以通过一个文件名参数将片段节点附加到现有的主节点。另外，XSLT使用Identity Transform复制整个文档，就像使用Muenchian Grouping按不同的关键字对文档进行索引一样。使用这种方法，唯一需要的for循环是遍历文件。在

因为OP没有设置一个可复制的示例，下面是一个使用StackOverflow的前3个用户在python和{a5}标记中的示例演示。主文件从前1位开始。然后，Python脚本迭代以按<tag1>追加第2列，然后再追加第3列：

掌握XML（排名前1的用户）

<?xml version="1.0"?>
<stackoverflow>
  <group lang="python">
    <topusers>
      <user>Martijn Pieters</user>
      <link>https://stackoverflow.com/users/100297/martijn-pieters</link>
      <location>Cambridge, United Kingdom </location>
      <year_rep>70,404</year_rep>
      <total_rep>590,309</total_rep>
      <tag1>python</tag1>
      <tag2>python-3.x</tag2>
      <tag3>python-2.7</tag3>
    </topusers>
  </group>
  <group lang="xslt">
    <topusers>
      <user>Dimitre Novatchev</user>
      <link>https://stackoverflow.com/users/36305/dimitre-novatchev</link>
      <location>United States</location>
      <year_rep>9,922</year_rep>
      <total_rep>197,245</total_rep>
      <tag1>xslt</tag1>
      <tag2>xml</tag2>
      <tag3>xpath</tag3>
    </topusers>
  </group>
</stackoverflow>

排名2的XML（即片段）

^{pr2}$

排名3的XML（即片段）

<?xml version="1.0" encoding="utf-8"?>
<stackoverflow>  
 <group lang="python">
     <topusers>
        <user>unutbu</user>
        <link>https://stackoverflow.com/users/190597/unutbu</link>
        <location></location>
        <year_rep>55,492</year_rep>
        <total_rep>453,267</total_rep>
        <tag1>python</tag1>
        <tag2>pandas</tag2>
        <tag3>numpy</tag3>
      </topusers>    
  </group>
 <group lang="xslt">
      <topusers>
        <user>michael.hor257k</user>
        <link>https://stackoverflow.com/users/3016153/michael-hor257k</link>
        <location></location>
        <year_rep>11,339</year_rep>
        <total_rep>70,473</total_rep>
        <tag1>xslt</tag1>
        <tag2>xml</tag2>
        <tag3>xslt-1.0</tag3>
      </topusers>  
  </group>
</stackoverflow>

XSLT（另存为.xsl文件，与.xml文件位于同一目录中）

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
  <xsl:output indent="yes" omit_xml_declaration="no"/>
  <xsl:strip-space elements="*"/>

  <xsl:key name="keyid" match="topusers" use="tag1" />  
  <xsl:param name="fragment" /> 

  <!  IDENTITY TRANSFORM  >
  <xsl:template match="@*|node()">
    <xsl:copy>
      <xsl:apply-templates select="@*|node()"/>
    </xsl:copy>
  </xsl:template>

  <!  IMPORT XML FRAGMENT  >
  <xsl:template match="group">     
    <xsl:copy>      
      <xsl:copy-of select="@*"/> 
      <xsl:apply-templates select="topusers[generate-id() = generate-id(key('keyid', tag1))]"/>  
    </xsl:copy>
  </xsl:template>

  <!  COPY EXISTING topusers AND APPEND EXTERNAL topusers BY SAME KEYWORD  >
  <xsl:template match="topusers">     
    <xsl:variable select="tag1" name="keyword"/>
    <xsl:for-each select="key('keyid', tag1)">
        <xsl:copy-of select="."/>
    </xsl:for-each>
    <!  PASS PYTHON PARAM INTO document()  >
    <xsl:copy-of select="document($fragment)/stackoverflow/group/topusers[tag1=$keyword]"/>
  </xsl:template>

</xsl:stylesheet>

Python（解析所有xml和xsl文件）

import os
import lxml.etree as et

# CURRENT DIRECTORY OF SCRIPT
cd = os.path.dirname(os.path.abspath(__file__))
master = os.path.join(cd, 'Master.xml')

# LOAD XSL SCRIPT
xsl = et.parse(os.path.join(cd, 'XSLTScript.xsl'))
transform = et.XSLT(xsl)

# ITERATE THROUGH FRAGMENT XML FILES IN DIRECTORY
for f in sorted(os.listdir(cd)):
    if f.endswith('.xml'):
        # LOAD MASTER XML
        doc = et.parse(master)

        print(f)
        # PASS FILE NAME AS PARAMETER FOR XSLT's document()
        n = et.XSLT.strparam(f)
        result = transform(doc, fragment=n)

        # UPDATE MASTER XML
        with open(master, 'wb') as s:
            s.write(result)

输出（每个标签排名前3）

<?xml version="1.0"?>
<stackoverflow>
  <group lang="python">
    <topusers>
      <user>Martijn Pieters</user>
      <link>https://stackoverflow.com/users/100297/martijn-pieters</link>
      <location>Cambridge, United Kingdom </location>
      <year_rep>70,404</year_rep>
      <total_rep>590,309</total_rep>
      <tag1>python</tag1>
      <tag2>python-3.x</tag2>
      <tag3>python-2.7</tag3>
    </topusers>
    <topusers>
      <user>Alex Martelli</user>
      <link>https://stackoverflow.com/users/95810/alex-martelli</link>
      <location>Sunnyvale, CA</location>
      <year_rep>49,172</year_rep>
      <total_rep>540,372</total_rep>
      <tag1>python</tag1>
      <tag2>list</tag2>
      <tag3>c++</tag3>
    </topusers>
    <topusers>
      <user>unutbu</user>
      <link>https://stackoverflow.com/users/190597/unutbu</link>
      <location/>
      <year_rep>55,492</year_rep>
      <total_rep>453,267</total_rep>
      <tag1>python</tag1>
      <tag2>pandas</tag2>
      <tag3>numpy</tag3>
    </topusers>
  </group>
  <group lang="xslt">
    <topusers>
      <user>Dimitre Novatchev</user>
      <link>https://stackoverflow.com/users/36305/dimitre-novatchev</link>
      <location>United States</location>
      <year_rep>9,922</year_rep>
      <total_rep>197,245</total_rep>
      <tag1>xslt</tag1>
      <tag2>xml</tag2>
      <tag3>xpath</tag3>
    </topusers>
    <topusers>
      <user>Martin Honnen</user>
      <link>https://stackoverflow.com/users/252228/martin-honnen</link>
      <location>Germany</location>
      <year_rep>10,046</year_rep>
      <total_rep>92,604</total_rep>
      <tag1>xslt</tag1>
      <tag2>xml</tag2>
      <tag3>xpath</tag3>
    </topusers>
    <topusers>
      <user>michael.hor257k</user>
      <link>https://stackoverflow.com/users/3016153/michael-hor257k</link>
      <location/>
      <year_rep>11,339</year_rep>
      <total_rep>70,473</total_rep>
      <tag1>xslt</tag1>
      <tag2>xml</tag2>
      <tag3>xslt-1.0</tag3>
    </topusers>
  </group>
</stackoverflow>

操作XSLT

与OP的实际主文件和片段文件相匹配的相应XSLT可能看起来像这个未经测试的版本。下面假设关键字与发布的fragement在同一布局中（由于图像关闭了<gmd:descriptiveKeywords>节点，因此无法判断）：

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
                              xmlns:gmd="http://www.isotc211.org/2005/gmd"
                              xmlns:gco="http://www.isotc211.org/2005/gco"
                              xmlns:gmx="http://www.isotc211.org/2005/gmx"
                              xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                              xmlns:gml="http://www.opengis.net/gml"
                              xmlns:xlink="http://www.w3.org/1999/xlink"
                              xmlns:geonet="http://www.fao.org/geonetwork">

  <xsl:output indent="yes" omit_xml_declaration="no"/>
  <xsl:strip-space elements="*"/>

  <xsl:key name="keyid" match="gmd:MD_Keywords" use="gmd:keyword/gco:CharacterString" />  
  <xsl:param name="fragment" /> 

  <!  IDENTITY TRANSFORM  >
  <xsl:template match="@*|node()">
    <xsl:copy>
      <xsl:apply-templates select="@*|node()"/>
    </xsl:copy>
  </xsl:template>

  <!  IMPORT XML FRAGMENT  >
  <xsl:template match="gmd:descriptiveKeywords">     
    <xsl:copy>      
      <xsl:apply-templates select="gmd:MD_Keywords[generate-id() = generate-id(key('keyid', gmd:keyword/gco:CharacterString))]"/>  
    </xsl:copy>
  </xsl:template>

  <!  COPY EXISTING gmd:MD_Keywords AND APPEND EXTERNAL gmd:MD_Keywords BY SAME KEYWORD  >
  <xsl:template match="gmd:MD_Keywords">     
    <xsl:variable select="gmd:keyword/gco:CharacterString" name="keyword"/>
    <xsl:for-each select="key('keyid', gmd:keyword/gco:CharacterString)">
        <xsl:copy-of select="."/>
    </xsl:for-each>
    <!  PASS PYTHON PARAM INTO document()  >
    <xsl:copy-of select="document($fragment)/ValueSupplyChain/gmd:descriptiveKeywords/gmd:MD_Keywords[gmd:keyword/gco:CharacterString=$keyword]"/>
  </xsl:template>

</xsl:stylesheet>

相关问题更多 >

编程相关推荐

热门问题

热门文章