一种高级的跨协议url抓取器
urlgrabber的Python项目详细描述
一个高级的跨协议url抓取器。
使用url grabber,数据可以通过三种基本方式获取:
urlgrab(url)将文件复制到本地文件系统
url open(url)打开远程文件并返回一个文件对象
(类似于urllib2.urlopen)
urlread(url)在使用这些函数(或方法)时将文件内容作为字符串返回,urlgrabber支持
以下功能:
*http://、ftp://、file://urls的相同行为
*http keepalive-使用
仅使用一个连接
*字节范围-仅获取文件的一部分
*reget-对于urlgrab,继续部分下载
*进度表-能够自动报告下载进度
,即使使用urlopen!
*限制-限制带宽使用
*重试-如果下载失败,自动重试。重试和故障类型的BR/>数量是可配置的。
对HTTP和FTP:BR/> *代理支持的认证服务器访问-支持已验证的HTTP和FTP代理
*镜像组-将镜像列表视为单个源,
如果出现故障,则自动切换镜像。
使用url grabber,数据可以通过三种基本方式获取:
urlgrab(url)将文件复制到本地文件系统
url open(url)打开远程文件并返回一个文件对象
(类似于urllib2.urlopen)
urlread(url)在使用这些函数(或方法)时将文件内容作为字符串返回,urlgrabber支持
以下功能:
*http://、ftp://、file://urls的相同行为
*http keepalive-使用
仅使用一个连接
*字节范围-仅获取文件的一部分
*reget-对于urlgrab,继续部分下载
*进度表-能够自动报告下载进度
,即使使用urlopen!
*限制-限制带宽使用
*重试-如果下载失败,自动重试。重试和故障类型的BR/>数量是可配置的。
对HTTP和FTP:BR/> *代理支持的认证服务器访问-支持已验证的HTTP和FTP代理
*镜像组-将镜像列表视为单个源,
如果出现故障,则自动切换镜像。