保存一个html页面 + 更改所有链接指向正确的位置

0 投票
2 回答
1635 浏览
提问于 2025-04-15 12:00

你可能知道,IE浏览器有一个功能,可以保存网页,它会自动下载网页的html文件,以及这个html文件用到的所有图片、样式表和脚本文件。

但是,这里有一个问题——html文件里的链接并不会被修改。比如,如果我下载了example.com的html页面,这个页面里有一个链接< a href=/hi.html>,那么我用IE下载的页面里的链接会指向C:\Documents and Settings...(也就是html文件所在的文件夹路径)。

有没有什么Python库可以帮我下载一个网页,连同它的所有内容(图片、脚本、样式表)一起下载?如果有的话,是否有库可以帮我修改这些链接?

谢谢!!

2 个回答

0

我写了一个工具,可以把网页保存成一个独立的html文件,而且里面的链接都指向正确的地方。

https://github.com/zTrix/webpage2html

8

既然你特别提到了IE(互联网浏览器),我不确定这对你有没有帮助,但在Linux系统上,最简单的方式来完整复制一个网站就是使用wget这个命令。

wget --mirror --convert-links -w 1 http://www.example.com

如果你需要更多的选项,可以运行man wget来查看帮助文档。

撰写回答