如何获取包含与regex匹配的文本的<p>

2条回答

网友

1楼 · 编辑于 2024-06-08 22:51:24

您可以使用re()代替extract() 为此列表中的每个元素调用.re（）方法，并以unicode字符串列表的形式返回其结果。 .re（）返回unicode字符串列表。所以不能构造嵌套的.re（）调用。在

event = response.xpath('//p/text()').extract("\d+\s\(\w{3}\)")

注意：re（）解码HTML实体（除<；和&；）。在

网友

2楼 · 编辑于 2024-06-08 22:51:24

如果你只想看短信，那么Karan Verma的回答就足够了。
如果你在寻找元素本身，继续阅读。在

matches仅在XPath 2.0及更高版本中可用（其他regex函数也是如此），在scrapy中不可用。在

Scrapy使用parsel进行解析，后者使用lxml进行解析，lxml只支持XPath 1.0。
但是，它确实支持regular expressions in the EXSLT namespace

由于在scray中默认启用了regex命名空间，因此可以执行以下操作：

event = response.xpath('//p[re:match(text(), "\d+\s\(\w{3}\)")]')