使用ElementTree解析Python中的XML示例

Question

我在找一个简单的例子，教我怎么用 Python 的 Element Tree 来解析 XML 文件。根据我找到的信息，这个库似乎是解析 XML 最简单的选择。下面是我正在处理的 XML 示例：

<timeSeriesResponse>
    <queryInfo>
        <locationParam>01474500</locationParam>
        <variableParam>99988</variableParam>
        <timeParam>
            <beginDateTime>2009-09-24T15:15:55.271</beginDateTime>
            <endDateTime>2009-11-23T15:15:55.271</endDateTime>
        </timeParam>
     </queryInfo>
     <timeSeries name="NWIS Time Series Instantaneous Values">
         <values count="2876">
            <value dateTime="2009-09-24T15:30:00.000-04:00" qualifiers="P">550</value>
            <value dateTime="2009-09-24T16:00:00.000-04:00" qualifiers="P">419</value>
            <value dateTime="2009-09-24T16:30:00.000-04:00" qualifiers="P">370</value>
            .....
         </values>
     </timeSeries>
</timeSeriesResponse>

我用一种固定的方法完成了我需要的功能。但我希望我的代码能更灵活一些。以下是我用的有效方法：

tree = ET.parse(sample.xml)
doc = tree.getroot()

timeseries =  doc[1]
values = timeseries[2]

print child.attrib['dateTime'], child.text
#prints 2009-09-24T15:30:00.000-04:00, 550

我尝试了几种方法，但都不成功，系统提示找不到 timeSeries（或者我尝试的其他内容）：

tree = ET.parse(sample.xml)
tree.find('timeSeries')

tree = ET.parse(sample.xml)
doc = tree.getroot()
doc.find('timeSeries')

基本上，我想加载 XML 文件，查找 timeSeries 标签，然后遍历 value 标签，返回 dateTime 和标签本身的值；这就是我在上面示例中做的，但不想固定写出我感兴趣的 XML 部分。有没有人能给我一些例子，或者建议我怎么解决这个问题？

感谢大家的帮助。使用下面的两个建议在我提供的示例文件上有效，但在完整文件上却不行。使用 Ed Carrel 的方法时，我遇到的错误是：

 (<type 'exceptions.AttributeError'>, AttributeError("'NoneType' object has no attribute 'attrib'",), <traceback object at 0x011EFB70>)

我觉得真实文件中有些东西不对，所以我逐步删除内容直到它能正常工作。以下是我修改的行：

originally: <timeSeriesResponse xsi:schemaLocation="a URL I removed" xmlns="a URL I removed" xmlns:xsi="a URL I removed">
 changed to: <timeSeriesResponse>

 originally:  <sourceInfo xsi:type="SiteInfoType">
 changed to: <sourceInfo>

 originally: <geogLocation xsi:type="LatLonPointType" srs="EPSG:4326">
 changed to: <geogLocation>

删除带有 'xsi:...' 的属性解决了这个问题。'xsi:...' 不是有效的 XML 吗？我很难通过程序删除这些属性。有没有什么建议的解决方法？

这是完整的 XML 文件： http://www.sendspace.com/file/lofcpt

当我最初问这个问题时，我对 XML 中的命名空间并不了解。现在我知道发生了什么，我不需要删除 "xsi" 属性，因为它们是命名空间声明。我只需在我的 xpath 查询中包含它们即可。有关 lxml 中命名空间的更多信息，请查看这个页面。

XML 错误处理解析 xpath 命名空间 elementtree 文件加载数据遍历

使用ElementTree解析Python中的XML示例

2 个回答

撰写回答