蜘蛛网和抓取器

spiderfetch的Python项目详细描述


https://badge.fury.io/py/spiderfetch.pnghttps://travis-ci.org/numerodix/spiderfetch.png?branch=master

安装

$ pip install spiderfetch
$ spiderfetch

使用

获取

从页面获取与2008.*.ogg匹配的所有URL:

^{pr2}$

要将URL转储到文件而不是获取:

$ spiderfetch http://www.fosdem.org/2008/media/video 2008.*ogg --dump > urls

爬行

在两次获取之间暂停2秒时,将站点爬行到深度3。这个 爬网时将考虑的URL必须匹配.*

$ spiderfetch --host http://en.wikipedia.org --depth 3 --pause 2'.*'

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
javai是JAXB的新手。如何将两个具有不同名称空间的不同xml合并为一个具有根元素的xml并将其解组?   JDO中的java应该是可传递的DefaultFetchGroup吗   java服务器配置问题   java在理解JList时遇到困难   java何时将RequestContextFilter用于Jersey?   java从数据库中读取文本文件。jar文件   Java正则表达式,仅适用于不包括零的正数   爪哇番石榴。类路径中的jar   JavaEE:关于设计的问题   java GUI,在面板中排列按钮   java Android为什么使用接口被认为是活动和片段之间通信的最佳实践?   java如何获取wicket图像的url以在开放图元标记中使用它   从Java字节[]>Base64>Javascript数组缓冲>Base64>byte[]   java正则表达式帮助字符串JWE766。1.pdf格式摘录766   java Hibernate,JPA忽略@Formula