使用压缩磁盘缓存和随机限制间隔下载URL。
downloader的Python项目详细描述
每个下载程序维护一个基于sqlite3的磁盘缓存,该缓存利用zlib 压缩。只有在缓存的 资源的期限大于或等于 程序员。
网络请求之间需要经过一个限制间隔。这个节流阀 间隔是随机选择的,但位于 程序员。
可以使用lxml解析html资源,在本例中,lxml元素树是 返回而不是文件对象,其中的链接重写为 以便于跟踪他们。为了 遇到无效的HTML时不会失败。
程序员还可以提供一个函数来决定服务器是否 禁止客户端(可能是通过检查返回的资源)。在这种情况下 将引发异常。
downloader的特性使它成为编写scraper的理想选择,因为它可以保持 网络占用空间小(由于缓存)和不规则(由于随机 节流间隔)。
要安装,只需运行:
python setup.py安装
有关文档,请在安装后运行:
python-m pydoc下载程序