2024-04-26 22:58:51 发布
网友
使用urllib.urlretrieve('http://page.com', 'page.html')我可以保存索引页,并且只保存网页. 让我们下载与wgr网页结构相似的所有文件page.com?在
urllib.urlretrieve('http://page.com', 'page.html')
问候
不是直接的。在
如果您想搜索整个站点,请查看mechanize:http://wwwsearch.sourceforge.net/mechanize/
这将允许您加载一个页面并跟踪其中的链接
比如:
import mechanize br = mechanize.Browser() br.open('http://stackoverflow.com') for link in br.links(): print(link) response = br.follow_link(link) html = response.read() #save your downloaded page br.back()
就目前而言,这只会让你的网页远离你的起点一个链接。不过,你可以很容易地调整它来覆盖整个站点。在
如果您真的只想镜像整个站点,请使用wget。只有当您需要进行某种巧妙的处理(处理javascript、有选择地跟踪链接等)时,在python中这样做才是值得的
不是直接的。在
如果您想搜索整个站点,请查看mechanize:http://wwwsearch.sourceforge.net/mechanize/
这将允许您加载一个页面并跟踪其中的链接
比如:
就目前而言,这只会让你的网页远离你的起点一个链接。不过,你可以很容易地调整它来覆盖整个站点。在
如果您真的只想镜像整个站点,请使用wget。只有当您需要进行某种巧妙的处理(处理javascript、有选择地跟踪链接等)时,在python中这样做才是值得的
相关问题 更多 >
编程相关推荐