在Python中下载网页及其所有资源文件

9 投票
2 回答
10333 浏览
提问于 2025-04-15 11:29

我想用Python下载一个网页及其所有相关资源(比如图片、样式表、脚本文件等等)。我对urllib2有点了解,知道怎么下载单个网址,但在我开始研究BeautifulSoup和urllib2之前,我想确认一下,是否已经有类似于“wget --page-requisites http://www.google.com”的Python工具。

具体来说,我想收集一些统计信息,比如下载整个网页(包括所有资源)需要多长时间。

谢谢,
Mark

2 个回答

2

websucker.py 这个程序不会导入 CSS 链接。HTTrack.com 不是用 Python 写的,而是用 C/C++,不过它是一个很不错的工具,可以用来下载网站,以便离线浏览。

http://www.mail-archive.com/python-bugs-list@python.org/msg13523.html [issue1124] Webchecker 没有解析 CSS 的 "@import url"

Guido> 这基本上是一个不被支持和维护的示例代码。不过你可以随意提交一个修复哦!

3

Websucker?想了解更多可以看看这个链接:http://effbot.org/zone/websucker.htm

撰写回答