链接检查器(爬虫)

2 投票
2 回答
1507 浏览
提问于 2025-04-15 14:45

我在找一个链接检查工具,想让它自动爬我的网站并记录无效链接。问题是我网站的首页有一个登录页面,必须先登录才能访问其他内容。我希望这个链接检查工具能在我输入登录信息后,继续爬取网站的其他部分。

大家有什么好主意吗?非常感谢!

2 个回答

2

你可以看看cookielib模块,地址是:http://docs.python.org/library/cookielib.html。这个模块可以完整地处理cookies,帮助你存储登录信息。一旦你使用了CookieJar,你只需要从用户那里获取登录信息(比如从控制台输入),然后发送一个合适的POST请求就可以了。

3

我最近刚刚解决了一个类似的问题:

import urllib
import urllib2
import cookielib

login = 'user@host.com'
password = 'secret'

cookiejar = cookielib.CookieJar()
urlOpener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))

# adjust this to match the form's field names
values = {'username': login, 'password': password}
data = urllib.urlencode(values)
request = urllib2.Request('http://target.of.POST-method', data)
url = urlOpener.open(request)
# from now on, we're authenticated and we can access the rest of the site
url = urlOpener.open('http://rest.of.user.area')

撰写回答