下载HTML页面及其内容
Python有没有办法可以把一个完整的网页和它的内容(比如图片、样式表等)下载到本地文件夹里?然后再更新本地的HTML文件,让它可以从本地获取这些内容。
4 个回答
15
你可以使用urlib这个库:
import urllib.request
opener = urllib.request.FancyURLopener({})
url = "http://stackoverflow.com/"
f = opener.open(url)
content = f.read()
44
你可以使用urllib
模块来下载单个网址的内容,但这样做只会返回数据。它不会解析HTML,也不会自动下载像CSS文件和图片这样的东西。
如果你想下载整个页面,就需要解析HTML,找到其他需要下载的内容。你可以使用像Beautiful Soup这样的工具来解析你获取的HTML。
这个问题里有一些示例代码,正是用来做这些事情的。