我有一个xml页面,其结构如下:
<item>
<pubDate>Sat, 12 Dec 2015 16:35:00 GMT</pubDate>
<title>
some text
</title>
<link>
http://www.example.com/index.xml
</link>
...
我想提取并跟踪<links>
标记中的链接。在
我只有以下默认代码:
^{pr2}$但我不知道如何跟踪“文本”标签。我实际上试过linkextractor
tags='links'
选项,但没有用。日志有效地转到页面,得到200个回复,但没有得到任何链接。在
这里的关键问题是,这不是一个常规的HTML输入,而是一个XML提要,链接位于元素texts中,而不是属性中。我想你只需要这里的^{} :
你应该用xml.etree图书馆。在
输出如下:
^{pr2}$相关问题 更多 >
编程相关推荐