使用预加载程序抓取网站时出现问题

2024-06-17 09:46:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在努力清理这个网站

https://www.neds.com.au/sports/esports

我正在使用scrapy来做这件事,但我所做的任何尝试都只会抓住预加载页面。我只是使用了错误的工具吗


Tags: 工具httpscom网站www错误页面au
1条回答
网友
1楼 · 发布于 2024-06-17 09:46:34

无论您最终使用什么工具,它都必须监视DOM的更改,并且只有在DOM稳定时(内容在任意时间内不再更改)才开始实际的抓取

一个这样的工具是开源浏览器扩展https://github.com/get-set-fetch/extension。它基于CSS选择器进行刮取,并具有“稳定性超时”选项

来自docs:Stability Timeout——当在指定的时间量(毫秒)内没有更多DOM更改时,考虑已加载并准备好刮取的页面。仅适用于html资源。用于绕过预加载程序内容

免责声明:我是扩展的作者

相关问题 更多 >