我正在使用Scrapy爬过一个站点,我想格式化提取的面包屑以创建站点路径:
HTML格式:
<ul id="breadcrumbs"><li><a href="/site/ID/home">Home</a></li> <li><a href="/site/ID/AboutUs">Who We Are</a></li></ul>
我在做什么:
^{pr2}$我现在得到的是:
<ul id="breadcrumbs"><li><a href="/site/ID/home">Home</a></li> <li><a href="/site/ID/AboutUs">Who We Are</a></li></ul>
我真正需要的是:
/home/AboutUs/
你知道我应该如何编写xpath或者如何格式化结果吗?在
使用} 和{a2}提取结尾。在
//ul[@id="breadcrumbs"]/li/a/@href
xpath获取所有href
值,使用^{来自^{} 的示例:
^.*?(/\w+)$
将匹配任何跟在后面的字符(?
表示它是一个“非贪婪”匹配类型),后跟一个或多个字母数字字符的斜杠(和_
)。括号有助于capture字符串的最后一部分(斜杠和拼音字符)。^
和$
是字符串的开始和结束。在相关问题 更多 >
编程相关推荐