在aws现场实例和gcp抢占vms上训练深度学习模型
spott的Python项目详细描述
spotty极大地简化了AWS上的深度学习模型的培训 以及GCP:
- 它使gpu实例的培训与本地机器上的培训一样简单
- 它自动管理所有必要的云资源,包括图像、卷、快照和ssh密钥
- 它使您的模型可以在云中由每个人通过几个命令进行培训
- 它使用tmux轻松地将远程进程与其终端分离
- 使用AWS Spot Instances可以节省高达70%的成本 以及GCP Preemtible VMs
文档
- 请参阅documentation page。
- 阅读this 关于媒体的文章,以真实世界为例。
安装
要求:
- python>;=3.5
- aws cli(请参见Installing the AWS Command Line Interface) 如果您使用的是AWS
- google云sdk(见Installing Google Cloud SDK) 如果您使用的是GCP
使用pip安装或升级spotty:
$ pip install -U spotty
开始
准备一个
spotty.yaml
文件并将其放到项目的根目录:启动实例:
$ spotty start
它将运行一个spot实例,恢复快照(如果有的话),将项目与正在运行的实例同步 用环境启动Docker容器。
训练一个模型或运行笔记本。
要通过ssh连接到正在运行的容器,请使用以下命令:
$ spotty ssh
它运行一个tmux会话,因此您始终可以使用
Ctrl + b
,然后d
组合键。要稍后附加到该会话,只需使用spotty ssh
再次命令。此外,还可以使用
spotty run <SCRIPT_NAME>
命令在Docker容器中运行自定义脚本。阅读更多 关于文档中的自定义脚本: Configuration: "scripts" section。
贡献
欢迎任何反馈或贡献!请查看guidelines。