与wget兼容的web下载程序和爬虫程序。

wpull的Python项目详细描述


wpull是一个wget兼容(或重新制作/克隆/替换/替代)的web 下载程序和爬虫程序。

A dog pulling a box via a harness.

显著特点:

  • 用python编写:轻量级、可修改、健壮、可编写脚本
  • 正常停止;磁盘上数据库恢复
  • Phantomjs&YouTube DL集成(实验性)

安装

Wpull使用Python 3

安装python后,使用pip从pypi下载wpull:

pip3 install wpull

有关详细的安装说明和潜在的注意事项,请参见 https://wpull.readthedocs.io/en/master/install.html

命令示例

要下载Google.com的About页面:

wpull google.com/about

存档网站:

wpull billy.blogsite.example \
    --warc-file blogsite-billy \
    --no-check-certificate \
    --no-robots --user-agent "InconspiuousWebBrowser/1.0" \
    --wait 0.5 --random-wait --waitretry 600 \
    --page-requisites --recursive --level inf \
    --span-hosts-allow linked-pages,page-requisites \
    --escaped-fragment --strip-session-id \
    --sitemaps \
    --reject-regex "/login\.php" \
    --tries 3 --retry-connrefused --retry-dns-error \
    --timeout 60 --session-timeout 21600 \
    --delete-after --database blogsite-billy.db \
    --quiet --output-file blogsite-billy.log

查看所有选项:

wpull --help

文件

文档位于https://wpull.readthedocs.io/。请拿着 在使用wpull的高级特性之前,先看一下它。

帮助

需要帮助吗?请参阅我们的Help页,其中包含 常见问题和支持信息。

问题跟踪程序位于https://github.com/chfoo/wpull/issues

开发

Travis CI build statusCoveralls report

我们非常感谢您的贡献和反馈。

学分

Christopher Foo等版权所有2013-2016。许可证GPL v3。

此项目包含根据不同条款授权的第三方源代码:

  • wpull.backport.logging
  • wpull.thirdparty.robotexclusionrulesparser第三方机器人例外规则
  • wpull.thirdparty.dammit

我们要感谢gnu wget的作者,因为wpull使用算法 来自Wget

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Apache Flink外部Jar   创建和强制转换对象数组时发生java错误   Java,添加数组   具有相同包结构和类的java JAR   java Jenkins未能构建Maven项目   java为什么一个forloop比另一个更快,尽管它们做的“一样”?   servlets在将“/”站点迁移到Java EE包时处理contextpath引用   无法解析java MavReplugin:2.21或其某个依赖项   泛型如何编写比较器来泛化Java中的两种类型的对象?   java Android Emulator未在netbeans上加载   多线程Java使用线程对数组中的数字求和:在同步块中使用新变量作为锁:差异   java如何在JSP/servlet中设置<input>标记的值?