在ec2实例集群上启动和运行命令的工具

ec2-cluster的Python项目详细描述


EC2集群

简单的库和cli来管理和使用ec2实例的集群。多用途,但创建的目的是使分布式深度学习基础设施更容易。

ec2-cluster是为简单的分布式任务而设计的,在这些任务中,kubernetes的杀伤力过大,或者快速的集群上下自旋是至关重要的。示例用例在一个昂贵的集群上运行分布式深度学习,或者从许多ec2实例运行分布式负载测试。

目标

  • 提供在ec2实例上运行分布式深度学习培训作业的最小功能集。
  • 提供库,而不是框架或平台。
  • 使群集环境可重复以允许实验并行化
  • 使群集快速启动
  • 适应EC2容量限制
  • 鼓励短暂的基础设施设计
  • 专注于迭代的,而不是破坏性的,对手动启动ec2实例、对其进行ssh连接、手动配置环境和运行脚本的常见方法的改进

概述

ec2-cluster有两种消费方式:

  • 用于启动、描述和删除群集的cli。
  • 用于编写脚本的python库。

这个库有三个主要组件:l

  • infra:创建群集基础结构
  • orch:编排简单的运行时群集配置(例如,使用运行时IP生成主机文件)
  • control:在集群上运行命令

cli快速启动

库快速启动

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java无法启动应用程序:JNLP错误   java根据用户输入在PreparedStatement中使用setTime()或setNull()   java EJB与同步   java以object为键通过hashmap进行搜索   java中的模10^9+7   针对包含其他对象的对象的java OOP最佳实践   如何将字符串作为HTML代码从Java文件读取到JSP页面?   java我的POM怎么了?“解析表达式..检测到递归表达式循环”   用于Hbase的Mapreduce的java NoSuchMethodError   JAVAlang.SecurityException:权限拒绝:启动意图{act=安卓.Intent.action.MAIN cat=[安卓.Intent.category.LAUNCHER]   数组初始化谜语Java   通过arraylist搜索时的java句柄关联