从远程站点页面获取浏览器可能下载的访问该页面的所有资源

YoullDownload的Python项目详细描述


快速信息

假设您需要在web页面上使用http负载测试和基准测试实用程序siege 您还想使用--internet选项,最多模拟web浏览器的行为。

当Web浏览器加载页面时,它还加载该页面中的所有资源:

  • 图像
  • javascript文件
  • css
  • 媒体资源

所以你需要一个从该页面获取的所有url的列表。

此实用程序(其名称是“您将下载”)将为您创建此列表。

您只需将实用程序输出重定向到一个文件,然后还可以使用siege--file选项。

使用量

$ youlldownload http://host.com/section/page

与围城一起使用:

$ youlldownload http://host.com/section/page > list.txt
$ siege -i -f list.txt [other options]

获取的资源

  • script标记中,我们将获取srcurl
  • link标记中rel等于stylesheet,我们将获取hrefurl
  • img标记中,我们将获取srcurl
  • object标记中,我们将获取dataurl
  • embed标记中,我们将获取srcurl
  • 如果标记使用“@import url”,我们将从style标记中获取url。 指令
  • iframe标记中,我们将获取srcurl
  • source标记中video我们将获取srcurl

另外:深入分析css源,寻找其中的额外资源 (如背景图像、字体等)。

作者

本产品由红海龟科技团队开发。

RedTurtle Technology Site

更改日志

0.4(2015-11-06)

  • 修复setup.py以正确创建包 [ALE RT]

0.3(2015-05-28)

  • 从最终报告中删除重复的URL [基尔]
  • 不包含具有锚定的相同版本的URL [基尔]
  • 同时检查css中的资源(背景图片、字体等) [基尔]
  • 如果“基本”标记,则脚本在主页外无法正常工作 未提供 [基尔]

0.2(2014-04-02)

  • 添加了对iframe标记的src属性的支持 [基尔]
  • 添加了对source标记的src属性的支持 (HTML 5视频元素) [基尔]
  • 如果base标记不存在,则不要中断 [基尔]

0.1(2013-01-30)

  • 初始版本

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在另一个承诺中解决一个承诺?   java验证字符串输入   如何在Java中将数组转换为链表   配置Logstash以从socket接收数据,并将其插入java中的Elasticsearch   swing构建在Java中以相同顺序运行的JFrame   java什么是工具箱的正确路径。getImage()?   java springbootgradleplugin是否随springboot版本一起移动?   升级gradle插件后,java gradle项目同步仍失败   java CXF服务调用失败,出现意外命名空间上的解组错误   Javaservlet。servlet ctakesrestservice的init()引发异常   java我需要什么正则表达式来读取这个值'12,'   java如何使用Xstream在现有xml文件中导入带有节点的字符串?   基于特殊字符的java子串   java hibernate从查询创建通用对象