如何在Amazon EMR clus上远程提交hadoopmr作业

2024-05-15 18:04:16 发布

您现在位置:Python中文网/ 问答频道 /正文

现状:我有一个电子病历集群。在主节点上—我有一个python程序,它执行一个子进程调用并执行包含以下行的脚本。该子进程触发MR作业并将输出写入HDFS,稍后我将使用这些HDFS。在

/usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt

我想做什么? 现在,我想把这部分解耦。我希望在我的笔记本电脑或单独的EC2实例上本地运行python程序,但仍然要将MR作业提交给EMR集群。假设我有测试.jar在EMR主节点上。在

如何远程提交?另外,我使用Python,让我们假设JAR是一个黑盒。有没有可以用来提交作业的软件包?我是否必须提到一个主节点的IP才能运行它?在


Tags: in程序txt脚本节点进程作业电子