保存一个html页面 + 更改所有链接指向正确的位置
你可能知道,IE浏览器有一个功能,可以保存网页,它会自动下载网页的html文件,以及这个html文件用到的所有图片、样式表和脚本文件。
但是,这里有一个问题——html文件里的链接并不会被修改。比如,如果我下载了example.com的html页面,这个页面里有一个链接< a href=/hi.html>,那么我用IE下载的页面里的链接会指向C:\Documents and Settings...(也就是html文件所在的文件夹路径)。
有没有什么Python库可以帮我下载一个网页,连同它的所有内容(图片、脚本、样式表)一起下载?如果有的话,是否有库可以帮我修改这些链接?
谢谢!!
2 个回答
0
我写了一个工具,可以把网页保存成一个独立的html文件,而且里面的链接都指向正确的地方。
8
既然你特别提到了IE(互联网浏览器),我不确定这对你有没有帮助,但在Linux系统上,最简单的方式来完整复制一个网站就是使用wget这个命令。
wget --mirror --convert-links -w 1 http://www.example.com
如果你需要更多的选项,可以运行man wget来查看帮助文档。