从远程站点页面获取浏览器可能下载的访问该页面的所有资源
YoullDownload的Python项目详细描述
快速信息
假设您需要在web页面上使用http负载测试和基准测试实用程序siege 您还想使用--internet选项,最多模拟web浏览器的行为。
当Web浏览器加载页面时,它还加载该页面中的所有资源:
- 图像
- javascript文件
- css
- 媒体资源
所以你需要一个从该页面获取的所有url的列表。
此实用程序(其名称是“您将下载”)将为您创建此列表。
您只需将实用程序输出重定向到一个文件,然后还可以使用siege--file选项。
使用量
$ youlldownload http://host.com/section/page
与围城一起使用:
$ youlldownload http://host.com/section/page > list.txt $ siege -i -f list.txt [other options]
获取的资源
- 从script标记中,我们将获取srcurl
- 从link标记中rel等于stylesheet,我们将获取hrefurl
- 从img标记中,我们将获取srcurl
- 从object标记中,我们将获取dataurl
- 从embed标记中,我们将获取srcurl
- 如果标记使用“@import url”,我们将从style标记中获取url。 指令
- 从iframe标记中,我们将获取srcurl
- 从source标记中video我们将获取srcurl
另外:深入分析css源,寻找其中的额外资源 (如背景图像、字体等)。
更改日志
0.4(2015-11-06)
- 修复setup.py以正确创建包 [ALE RT]
0.3(2015-05-28)
- 从最终报告中删除重复的URL [基尔]
- 不包含具有锚定的相同版本的URL [基尔]
- 同时检查css中的资源(背景图片、字体等) [基尔]
- 如果“基本”标记,则脚本在主页外无法正常工作 未提供 [基尔]
0.2(2014-04-02)
- 添加了对iframe标记的src属性的支持 [基尔]
- 添加了对source标记的src属性的支持 (HTML 5视频元素) [基尔]
- 如果base标记不存在,则不要中断 [基尔]
0.1(2013-01-30)
- 初始版本