所以我现在使用的是Scrapy,想从一个网站上获取具体信息。我希望能够只在某些文本存在的情况下刮取信息,也只希望能够在某些文本不存在的情况下刮取信息。在
例如,我可能会找苹果、香蕉或梨,如果我找到其中一个单词,我会想把页面刮干净,但如果文本中也有桃子,我就不想刮内容。我希望这有道理?在
据我所知,我可以使用xpath创建一个or语句,如下所示:
//tbody[contains(text(), "apple")] | //tbody[contains(text(), "banana")] | //tbody[contains(text(), "pear")]
但是,如果Xpath在页面中发现peach,我该怎么告诉它不要刮擦页面呢?在
我也从页面中提取了一些其他元素,但我不认为它们是相关的(如果我错了,请告诉我)
谢谢
使用
not
XPath函数,如下所示:可以按如下方式组合两个表达式:
^{pr2}$这将选择包含
apple
,但不包括pear
的表体。注意,您可以使用句点字符.
作为text()
的替代。在相关问题 更多 >
编程相关推荐