我正在寻求从一个网站上获取特定的产品信息。然而,我想要的XPATH标准之一并没有出现在每个产品的页面上。(虽然所有产品都有名称、价格等,但有些产品没有显示推荐的使用年限)。在
这不是问题,但是,当scrapy在shell中写入甚至返回数据时,它不再按照与起始url的列表相关联的顺序排列,也不考虑某些url中没有数据。因此,我的所有数据(不同变量的多个列)都与新的age列不匹配,因为它比new age列短得多,而且顺序混乱。当我只关注那些显示了年龄的产品时,情况就不是这样了。在
有没有一种方法可以使没有所需XPATH和age的页面返回一个空白,以保持数据中匹配的列顺序?在
这是我的XPATH选择器:
item["age"] = hxs.select('//li[contains(@class,"our-age")]/span/text()').extract()
(有些网页没有年龄,因此完全没有路径。)
相关问题 更多 >
编程相关推荐