蜘蛛网和抓取器
spiderfetch的Python项目详细描述
安装
$ pip install spiderfetch $ spiderfetch
使用
获取
从页面获取与2008.*.ogg匹配的所有URL:
^{pr2}$要将URL转储到文件而不是获取:
$ spiderfetch http://www.fosdem.org/2008/media/video 2008.*ogg --dump > urls
爬行
在两次获取之间暂停2秒时,将站点爬行到深度3。这个 爬网时将考虑的URL必须匹配.*:
$ spiderfetch --host http://en.wikipedia.org --depth 3 --pause 2'.*'
- 项目
标签: