Python Scrapy,include text,使用xpath排除文本

2024-03-29 10:01:37 发布

您现在位置:Python中文网/ 问答频道 /正文

所以我现在使用的是Scrapy,想从一个网站上获取具体信息。我希望能够只在某些文本存在的情况下刮取信息,也只希望能够在某些文本不存在的情况下刮取信息。在

例如,我可能会找苹果、香蕉或梨,如果我找到其中一个单词,我会想把页面刮干净,但如果文本中也有桃子,我就不想刮内容。我希望这有道理?在

据我所知,我可以使用xpath创建一个or语句,如下所示:

//tbody[contains(text(), "apple")] | //tbody[contains(text(), "banana")] | //tbody[contains(text(), "pear")]

但是,如果Xpath在页面中发现peach,我该怎么告诉它不要刮擦页面呢?在

我也从页面中提取了一些其他元素,但我不认为它们是相关的(如果我错了,请告诉我)

谢谢


Tags: text文本苹果信息内容网站情况页面
1条回答
网友
1楼 · 发布于 2024-03-29 10:01:37

使用notXPath函数,如下所示:

//tbody[not(contains(text(), "peach"))]

可以按如下方式组合两个表达式:

^{pr2}$

这将选择包含apple,但不包括pear的表体。注意,您可以使用句点字符.作为text()的替代。在

相关问题 更多 >