选择标记时出现Web碎片错误的爬虫程序

2024-05-13 11:26:32 发布

男 | 程序猿一只，喜欢编程写python代码。

我将遵循this教程，在这个site上使用Scrapy Web库进行爬虫。考虑到下面的图像，我需要收集span标记中的文本（“Mãe cria sozinha…”）

使用scrapy shell，我试图使用response.css进行收集，但返回一个空列表：

response.css("a._b >span::text").extract()

我相信我传递标签是错误的，那么正确的方法是什么呢

Tags：标记图像文本 web response site 教程 this

1条回答

网友

1楼 · 发布于 2024-05-13 11:26:32

如果使用ctrl/cmd+U打开URL的源代码，将无法找到类_b，因此返回的响应为空，并且没有得到所需的结果。此外bstn-hl-title类在网页的源代码中也不可用。因此，item的所有字段也将为空。在scrapy中，您可以使用ctrl/cmd+U访问在浏览器中看到的源