用Python模拟浏览器资源扩展行为

2 投票
3 回答
649 浏览
提问于 2025-04-15 23:59

我想找一种方法来模拟浏览器获取资源的过程。

我想解决的流程是这样的:

  • 首先访问一个网址(比如 http://example.dmn/index.htm
  • 解析收到的HTML响应(比如index.htm)
  • 找出浏览器在解析这个页面时会自动获取的资源,比如:
    • 图片
    • Flash动画
    • 嵌入的视频/音频
    • 框架/内嵌框架(iFrames)
  • 对每一个找到的新资源重复这个过程

我并不想跟随链接(href),只关注当页面首次访问时,浏览器会自动获取的页面资源。

你有什么建议可以帮助我进行这个模拟吗?

有没有什么Python项目或库可以帮忙?

谢谢!

3 个回答

1

你可以看看 Scrapy 这个工具。

虽然它可能没有你需要的所有功能,但你可以很容易地对它进行扩展,添加你想要的功能。

1

你可以看看 spider.pyrobotparser。如果这些工具不能自动完成你想要的功能,你也可以自己动手用 BeautifulSoup 来处理HTML内容。

1

你可以看看这个Windmill测试框架,它让你可以用Python为网页应用写测试。

撰写回答