现状:我有一个电子病历集群。在主节点上—我有一个python程序,它执行一个子进程调用并执行包含以下行的脚本。该子进程触发MR作业并将输出写入HDFS,稍后我将使用这些HDFS。在
/usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt
我想做什么? 现在,我想把这部分解耦。我希望在我的笔记本电脑或单独的EC2实例上本地运行python程序,但仍然要将MR作业提交给EMR集群。假设我有测试.jar在EMR主节点上。在
如何远程提交?另外,我使用Python,让我们假设JAR是一个黑盒。有没有可以用来提交作业的软件包?我是否必须提到一个主节点的IP才能运行它?在
目前没有回答
相关问题 更多 >
编程相关推荐