整个web页面的Python url检索

2024-04-26 22:58:51 发布

您现在位置:Python中文网/ 问答频道 /正文

使用urllib.urlretrieve('http://page.com', 'page.html')我可以保存索引页,并且只保存网页. 让我们下载与wgr网页结构相似的所有文件page.com?在

问候


Tags: 文件comhttp网页htmlpageurllib结构
1条回答
网友
1楼 · 发布于 2024-04-26 22:58:51

不是直接的。在

如果您想搜索整个站点,请查看mechanize:http://wwwsearch.sourceforge.net/mechanize/

这将允许您加载一个页面并跟踪其中的链接

比如:

import mechanize
br = mechanize.Browser()
br.open('http://stackoverflow.com')
for link in br.links():
    print(link)
    response = br.follow_link(link)
    html = response.read()
    #save your downloaded page
    br.back()

就目前而言,这只会让你的网页远离你的起点一个链接。不过,你可以很容易地调整它来覆盖整个站点。在

如果您真的只想镜像整个站点,请使用wget。只有当您需要进行某种巧妙的处理(处理javascript、有选择地跟踪链接等)时,在python中这样做才是值得的

相关问题 更多 >