在Python中下载网页及其所有资源文件

9 投票

2 回答

10333 浏览

提问于 2025-04-15 11:29

我想用Python下载一个网页及其所有相关资源（比如图片、样式表、脚本文件等等）。我对urllib2有点了解，知道怎么下载单个网址，但在我开始研究BeautifulSoup和urllib2之前，我想确认一下，是否已经有类似于“wget --page-requisites http://www.google.com”的Python工具。

具体来说，我想收集一些统计信息，比如下载整个网页（包括所有资源）需要多长时间。

谢谢，
Mark

urllib2 网络爬虫网络请求 beautifulsoup 数据采集网页下载资源抓取性能统计

2 个回答

websucker.py 这个程序不会导入 CSS 链接。HTTrack.com 不是用 Python 写的，而是用 C/C++，不过它是一个很不错的工具，可以用来下载网站，以便离线浏览。

http://www.mail-archive.com/python-bugs-list@python.org/msg13523.html [issue1124] Webchecker 没有解析 CSS 的 "@import url"

Guido> 这基本上是一个不被支持和维护的示例代码。不过你可以随意提交一个修复哦！

回答于 2025-04-15 由 Python大师

分享举报

Websucker？想了解更多可以看看这个链接：http://effbot.org/zone/websucker.htm

回答于 2025-04-15 由 Python大师

分享举报

在Python中下载网页及其所有资源文件

2 个回答

撰写回答