使用预加载程序抓取网站时出现问题 - 问答 - Python中文网

使用预加载程序抓取网站时出现问题

2024-06-17 09:46:34 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在努力清理这个网站

https://www.neds.com.au/sports/esports

我正在使用scrapy来做这件事，但我所做的任何尝试都只会抓住预加载页面。我只是使用了错误的工具吗

Tags：工具 https com 网站 www 错误页面 au

1条回答

网友

1楼 · 发布于 2024-06-17 09:46:34

无论您最终使用什么工具，它都必须监视DOM的更改，并且只有在DOM稳定时（内容在任意时间内不再更改）才开始实际的抓取

一个这样的工具是开源浏览器扩展https://github.com/get-set-fetch/extension。它基于CSS选择器进行刮取，并具有“稳定性超时”选项

来自docs:Stability Timeout——当在指定的时间量（毫秒）内没有更多DOM更改时，考虑已加载并准备好刮取的页面。仅适用于html资源。用于绕过预加载程序内容

免责声明：我是扩展的作者

相关问题更多 >

编程相关推荐

热门问题

热门文章