我如何解析下面的XML来查找每个指南的ID和UL,然后查找指南中的每个页面的ID和出现在BOX/BOX/ASSETS/DESCRIPTION中的任何图像?图像是HTML格式的,所以我需要从每个图像抓取源代码。你知道吗
<guide>
<id></id>
<url></url>
<group>
<id></id>
<type></type>
<name></name>
</group>
<pages>
<page>
<id></id>
<name></name>
<description></description>
<boxes>
<box>
<id></id>
<name></name>
<type></type>
<map_id></map_id>
<column></column>
<position></position>
<hidden></hidden>
<created></created>
<updated></updated>
<assets>
<asset>
<id></id>
<name></name>
<type></type>
<description></description>
<url/>
<owner>
<id></id>
<email></email>
<first_name></first_name>
<last_name></last_name>
</owner>
</asset>
</assets>
</box>
</boxes>
</page>
</pages>
</guide>
这给了我带有ID和描述的页面,但我需要访问的是资产元素中的描述,以及它们所在的指南/页面。你知道吗
from lxml import etree
tree = etree.parse('temp.xml')
for page in tree.xpath('.//page'):
page.xpath('id')[0].text, page.xpath('description')[0].text
代码的模式可能类似,但我无法检查这一点,因为我没有完整的xml。你知道吗
我假设您的xml将有多个
guide
元素。这就是我分析的。你知道吗我通过缩进xml使自己的生活更轻松,这样我就可以识别它的结构。你知道吗
相关问题 更多 >
编程相关推荐