问题
下载动态加载链接/图像的网站的完整脱机工作副本
研究
在Stackoverflow上有一些问题(例如[1],[2],[3])来解决这个问题,其中大多数问题的答案都是使用wget或httrack,这两个问题在动态加载链接或使用srcset
而不是{}来表示{}或任何通过JS-加载的页面上都会失败(如果我错了,请纠正我)。一个相当明显的解决方案是Selenium,但是,如果您曾经在生产中使用过Selenium,那么您很快就会发现这样一个决策所产生的问题(资源量大,使用head-full驱动程序相当复杂,事实上它不是为此而构建的),也就是说,there are people claiming to have been using it easily in production for years
预期解决方案
一个脚本(最好是python),它解析页面中的链接并分别加载它们。我似乎找不到任何现有的脚本。如果你的解决方案是“所以实现你自己的”,那么首先问这个问题是没有意义的,我正在寻求一个现有的实现。在
示例
- 在Shopify.com网站在
- 使用Wix构建的网站
Tags:
现在有了}等替代版本,它们都可以与一个小脚本一起使用,以废弃任何动态加载的网站。在
Selenium
的无头版本和{我实现了一个通用的scraper here,并解释了更多关于here的主题
相关问题 更多 >
编程相关推荐