使用压缩磁盘缓存和随机限制间隔下载URL。

downloader的Python项目详细描述


每个下载程序维护一个基于sqlite3的磁盘缓存,该缓存利用zlib 压缩。只有在缓存的 资源的期限大于或等于 程序员。

网络请求之间需要经过一个限制间隔。这个节流阀 间隔是随机选择的,但位于 程序员。

可以使用lxml解析html资源,在本例中,lxml元素树是 返回而不是文件对象,其中的链接重写为 以便于跟踪他们。为了 遇到无效的HTML时不会失败。

程序员还可以提供一个函数来决定服务器是否 禁止客户端(可能是通过检查返回的资源)。在这种情况下 将引发异常。

downloader的特性使它成为编写scraper的理想选择,因为它可以保持 网络占用空间小(由于缓存)和不规则(由于随机 节流间隔)。

要安装,只需运行:

python setup.py安装

有关文档,请在安装后运行:

python-m pydoc下载程序

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java启动时加载值示例代码(xml)   java什么是视图索引?当视图组将视图添加到索引1时会发生什么   java如何调用HttpUrlConnection disconnect()   java将日期转换为毫秒,givse错误结果   java正在处理“.”上的IP地址拆分字符串性格   java proguard不创建输出jar   编译中的Java默认修饰符   java中的管道I/O流   java为集合返回的最佳迭代器类型?拆分器,流?   java如何修改JTextArea中tab键的行为?   来自Android Studio HTML文档的外部应用程序中的java Open Local PDF   组件和轻量级/重量级之间的java差异   java在有向图中查找模式   python可以创建运行服务器端程序的Java Web Start应用程序吗?   NiFi中基于内容的java更新属性