管理纱线集群上pyspark作业conda环境的极简实用程序库
sparkonda的Python项目详细描述
管理纱线集群上PySpark作业的conda环境的极简实用程序库
功能
- 管理pyspark执行器上的conda环境以使用特定的 远程工作程序上的包,不需要管理员在Hadoop群集上安装所需的软件。
历史记录
0.2.2(2016-02)
修复每个执行器的核心数大于1时的错误
修复list_cwd以在输出中包含主机名
修复测试以使用包文件命名而不是zip文件
修复使用文档以包含新的核心数量配置
添加正确prun到num分区映射的测试
0.2.1(2016-01年)
修复文档、设置和使用方法
fix travis和setup.py配置
将zip移动到pack作为一个操作
将zip替换为tar以更好地保留conda env文件上的acl
为untar添加错误级别配置
0.2.0(2016-01)
分布式远程包传递的附加测试
将操作系统文件管理更改为基于python的支持(zip,rm)
使用SparkFiles检测分发给工人的文件
0.1.0(2015-11)
管理pyspark集群工作器上的conda环境的初始版本,而不涉及太多的集群管理员