saga将启动hadoop集群作为torque/pbs/slurm集群上的正常批处理作业
SAGA-Hadoop的Python项目详细描述
#Saga Hadoop
上次更新时间:10/01/2016
#概述:
使用[saga](http://saga-project.github.io/saga-python/)在hpc批处理作业中生成hadoop集群。
当前支持的SAGA适配器:
- 叉子
- 扭矩
要求:
- PBS/Torque cluster
- Working directory should be on a shared filesystem
默认情况下,saga hadoop部署了hadoop 2.2.0yarn集群。可以通过调整core site.xml、hdfs site.xml、mapred site.xml和yarn site.xml中的hadoop2/bootstrap\u hadoop2.py中的hadoop配置文件模板来定制集群。
#用法
尝试运行本地hadoop(例如用于开发和测试)
easy_install saga-hadoop saga-hadoop –resource fork://localhost
尝试在pbs/torque作业中运行hadoop集群:
saga-hadoop –resource pbs+ssh://india.futuregrid.org –number_cores 8
一些关于saga hadoop的博客文章:
#套餐:
有关设置Hadoop 1.x.x群集的信息,请参见
有关设置Hadoop 2.7.x群集的信息,请参见
有关设置Spark 2.0.x群集的信息,请参见
有关设置Kafka 0.10.x群集的信息,请参见
#示例:
*踩踏:*
saga-hadoop –resource=slurm://localhost –queue=normal –walltime=239 –number_cores=256 –project=xxx
*戈登:*
saga-hadoop –resource=pbs://localhost –walltime=59 –number_cores=16 –project=TG-CCR140028 –framework=spark
*牧马人*
export JAVA_HOME=/usr/java/jdk1.8.0_45/ saga-hadoop –resource=slurm://localhost –queue=normal –walltime=59 –number_cores=24 –project=xxx