检索包含动态加载的链接/图像的完整网页

2024-05-12 19:10:17 发布

您现在位置：Python中文网/ 问答频道 /正文

682

网友

男 | 程序猿一只，喜欢编程写python代码。

问题

下载动态加载链接/图像的网站的完整脱机工作副本

研究

在Stackoverflow上有一些问题（例如[1]，[2]，[3]）来解决这个问题，其中大多数问题的答案都是使用wget或httrack，这两个问题在动态加载链接或使用srcset而不是{}来表示{}或任何通过JS-加载的页面上都会失败（如果我错了，请纠正我）。一个相当明显的解决方案是Selenium，但是，如果您曾经在生产中使用过Selenium，那么您很快就会发现这样一个决策所产生的问题（资源量大，使用head-full驱动程序相当复杂，事实上它不是为此而构建的），也就是说，there are people claiming to have been using it easily in production for years

预期解决方案

一个脚本（最好是python），它解析页面中的链接并分别加载它们。我似乎找不到任何现有的脚本。如果你的解决方案是“所以实现你自己的”，那么首先问这个问题是没有意义的，我正在寻求一个现有的实现。在

示例

在Shopify.com网站在
使用Wix构建的网站

Tags：答案图像脚本网站链接 selenium 副本动态

1条回答

网友

1楼 · 发布于 2024-05-12 19:10:17

现在有了Selenium的无头版本和{}等替代版本，它们都可以与一个小脚本一起使用，以废弃任何动态加载的网站。在

我实现了一个通用的scraper here，并解释了更多关于here的主题

检索包含动态加载的链接/图像的完整网页

相关问题更多 >

编程相关推荐

热门问题

热门文章

检索包含动态加载的链接/图像的完整网页

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >