从一些“不均匀”的XML中构造db记录的最佳方法是什么

2021-10-17 18:24:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我想用python中的lxml方法解析一些XML。在分析了元素之后,我希望能够比较一些结构化对象(寻找delta)。你知道吗

我需要解析大约50个XML文件,XML中的数据是“不均匀”的(我不确定正确的名称是什么)。你知道吗

简化的XML示例:

<ID 1>
 <parameter A>
 <parameter B>
</ID 1>
<ID 2>
 <parameter A>
 <parameter B>
 <parameter C> 
</ID 2>
<ID 3>
 <parameter A>
</ID 3>

如何创建一个合适的数据库(mySQL?)结构,我可以使用它通过ID隔离每个对象,并比较每个参数元素。你知道吗

我不确定这是否有意义-我对正确的术语不是很熟悉。你知道吗

实际的源xml是这里列出的所有文件:http://www.nationalarchives.gov.uk/aboutapps/pronom/droid-signature-files.htm

这些文件是过去几年中更新过的相同结构的版本。我不需要数据库中的所有XML元素,只需要一个子集,从版本号、发布日期开始,然后是在两个主要部分中找到的单个ID和字节模式。你知道吗

把它放到mysql中可能不是最好的方法,但我想如果我这么做了,我会使用python/html前端来组合一个搜索/比较工具。你知道吗