用Python模拟浏览器资源扩展行为
我想找一种方法来模拟浏览器获取资源的过程。
我想解决的流程是这样的:
- 首先访问一个网址(比如 http://example.dmn/index.htm)
- 解析收到的HTML响应(比如index.htm)
- 找出浏览器在解析这个页面时会自动获取的资源,比如:
- 图片
- Flash动画
- 嵌入的视频/音频
- 框架/内嵌框架(iFrames)
- 对每一个找到的新资源重复这个过程
我并不想跟随链接(href),只关注当页面首次访问时,浏览器会自动获取的页面资源。
你有什么建议可以帮助我进行这个模拟吗?
有没有什么Python项目或库可以帮忙?
谢谢!
3 个回答
1
你可以看看 Scrapy 这个工具。
虽然它可能没有你需要的所有功能,但你可以很容易地对它进行扩展,添加你想要的功能。
1
你可以看看 spider.py 和 robotparser。如果这些工具不能自动完成你想要的功能,你也可以自己动手用 BeautifulSoup 来处理HTML内容。
1
你可以看看这个Windmill测试框架,它让你可以用Python为网页应用写测试。