Scrapy:当XPATH不存在时,如何生成条件(present或absent)XPATH返回值?

2024-04-25 22:04:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在寻求从一个网站上获取特定的产品信息。然而,我想要的XPATH标准之一并没有出现在每个产品的页面上。(虽然所有产品都有名称、价格等,但有些产品没有显示推荐的使用年限)。在

这不是问题,但是,当scrapy在shell中写入甚至返回数据时,它不再按照与起始url的列表相关联的顺序排列,也不考虑某些url中没有数据。因此,我的所有数据(不同变量的多个列)都与新的age列不匹配,因为它比new age列短得多,而且顺序混乱。当我只关注那些显示了年龄的产品时,情况就不是这样了。在

有没有一种方法可以使没有所需XPATH和age的页面返回一个空白,以保持数据中匹配的列顺序?在

这是我的XPATH选择器:

item["age"] = hxs.select('//li[contains(@class,"our-age")]/span/text()').extract()

(有些网页没有年龄,因此完全没有路径。)


Tags: 数据名称信息urlage标准顺序产品