在Python中下载网页及其所有资源文件
我想用Python下载一个网页及其所有相关资源(比如图片、样式表、脚本文件等等)。我对urllib2有点了解,知道怎么下载单个网址,但在我开始研究BeautifulSoup和urllib2之前,我想确认一下,是否已经有类似于“wget --page-requisites http://www.google.com”的Python工具。
具体来说,我想收集一些统计信息,比如下载整个网页(包括所有资源)需要多长时间。
谢谢,
Mark
2 个回答
2
websucker.py 这个程序不会导入 CSS 链接。HTTrack.com 不是用 Python 写的,而是用 C/C++,不过它是一个很不错的工具,可以用来下载网站,以便离线浏览。
http://www.mail-archive.com/python-bugs-list@python.org/msg13523.html [issue1124] Webchecker 没有解析 CSS 的 "@import url"
Guido> 这基本上是一个不被支持和维护的示例代码。不过你可以随意提交一个修复哦!
3
Websucker?想了解更多可以看看这个链接:http://effbot.org/zone/websucker.htm