检索包含动态加载的链接/图像的完整网页

2024-05-12 19:10:17 发布

您现在位置:Python中文网/ 问答频道 /正文

问题

下载动态加载链接/图像的网站的完整脱机工作副本

研究

在Stackoverflow上有一些问题(例如[1][2][3])来解决这个问题,其中大多数问题的答案都是使用wgethttrack,这两个问题在动态加载链接或使用srcset而不是{}来表示{}或任何通过JS-加载的页面上都会失败(如果我错了,请纠正我)。一个相当明显的解决方案是Selenium,但是,如果您曾经在生产中使用过Selenium,那么您很快就会发现这样一个决策所产生的问题(资源量大,使用head-full驱动程序相当复杂,事实上它不是为此而构建的),也就是说,there are people claiming to have been using it easily in production for years

预期解决方案

一个脚本(最好是python),它解析页面中的链接并分别加载它们。我似乎找不到任何现有的脚本。如果你的解决方案是“所以实现你自己的”,那么首先问这个问题是没有意义的,我正在寻求一个现有的实现。在

示例

  1. 在Shopify.com网站在
  2. 使用Wix构建的网站

Tags: 答案图像脚本网站链接selenium副本动态
1条回答
网友
1楼 · 发布于 2024-05-12 19:10:17

现在有了Selenium的无头版本和{}等替代版本,它们都可以与一个小脚本一起使用,以废弃任何动态加载的网站。在

我实现了一个通用的scraper here,并解释了更多关于here的主题

相关问题 更多 >