链接检查器(爬虫)
我在找一个链接检查工具,想让它自动爬我的网站并记录无效链接。问题是我网站的首页有一个登录页面,必须先登录才能访问其他内容。我希望这个链接检查工具能在我输入登录信息后,继续爬取网站的其他部分。
大家有什么好主意吗?非常感谢!
2 个回答
2
你可以看看cookielib模块,地址是:http://docs.python.org/library/cookielib.html。这个模块可以完整地处理cookies,帮助你存储登录信息。一旦你使用了CookieJar,你只需要从用户那里获取登录信息(比如从控制台输入),然后发送一个合适的POST请求就可以了。
3
我最近刚刚解决了一个类似的问题:
import urllib
import urllib2
import cookielib
login = 'user@host.com'
password = 'secret'
cookiejar = cookielib.CookieJar()
urlOpener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
# adjust this to match the form's field names
values = {'username': login, 'password': password}
data = urllib.urlencode(values)
request = urllib2.Request('http://target.of.POST-method', data)
url = urlOpener.open(request)
# from now on, we're authenticated and we can access the rest of the site
url = urlOpener.open('http://rest.of.user.area')