与wget兼容的web下载程序和爬虫程序。
wpull的Python项目详细描述
wpull是一个wget兼容(或重新制作/克隆/替换/替代)的web 下载程序和爬虫程序。
显著特点:
- 用python编写:轻量级、可修改、健壮、可编写脚本
- 正常停止;磁盘上数据库恢复
- Phantomjs&YouTube DL集成(实验性)
安装
Wpull使用Python 3
安装python后,使用pip从pypi下载wpull:
pip3 install wpull
有关详细的安装说明和潜在的注意事项,请参见 https://wpull.readthedocs.io/en/master/install.html
命令示例
要下载Google.com的About页面:
wpull google.com/about
存档网站:
wpull billy.blogsite.example \ --warc-file blogsite-billy \ --no-check-certificate \ --no-robots --user-agent "InconspiuousWebBrowser/1.0" \ --wait 0.5 --random-wait --waitretry 600 \ --page-requisites --recursive --level inf \ --span-hosts-allow linked-pages,page-requisites \ --escaped-fragment --strip-session-id \ --sitemaps \ --reject-regex "/login\.php" \ --tries 3 --retry-connrefused --retry-dns-error \ --timeout 60 --session-timeout 21600 \ --delete-after --database blogsite-billy.db \ --quiet --output-file blogsite-billy.log
查看所有选项:
wpull --help
文件
文档位于https://wpull.readthedocs.io/。请拿着 在使用wpull的高级特性之前,先看一下它。
学分
Christopher Foo等版权所有2013-2016。许可证GPL v3。
此项目包含根据不同条款授权的第三方源代码:
- wpull.backport.logging
- wpull.thirdparty.robotexclusionrulesparser第三方机器人例外规则
- wpull.thirdparty.dammit
我们要感谢gnu wget的作者,因为wpull使用算法 来自Wget