帕图是一只小蜘蛛
patu的Python项目详细描述
帕图
一个小蜘蛛,用于检查站点的404和500s。patu需要httplib2和lxml:
pip install -U httplib2 lxml
快速使用
查看可用选项:
patu.py –help
使用5个工作人员创建整个站点的蜘蛛网,只显示错误:
patu.py –spiders=5 www.example.com
对于spider,在第一级链接之后停止:
patu.py –depth=1 www.example.com
要获取网站上每个链接页面的列表:
patu.py –generate www.example.com > urls.txt
使用一个文件代替对url的搜索,并显示所有响应:
patu.py –input=urls.txt –verbose www.example.com
URL文件格式
<;code>;–generate生成的输出格式如下:
FIRST_URL<TAB>None LINK1<TAB>REFERER LINK2<TAB>REFERER
<;code>;–input<;/code>;可以采用该格式的文件,或者每行一个url,而不使用referer。<;code>;–input=-<;/code>;从stdin读取。
测试
帕图用鼻子做测试。安装机头并进行测试:
pip install -U nose nosetests