利用多核与LocalMRJobRunner for MRJob

2条回答

网友

1楼 · 编辑于 2024-05-23 18:58:46

mrjob的本地作业运行器只为每个MR阶段生成一个子进程，一个子进程用于映射器，一个用于合并器（可选），一个用于reducer，并通过管道在它们之间传递数据。它的设计根本没有任何并行性，所以它永远不会利用64核的优势。在

我的建议是在本地机器上运行hadoop并使用-r hadoop选项提交作业。在本地机器上以psedoo分布式模式运行的hadoop集群应该能够利用您的多个核心。在

网友

2楼 · 编辑于 2024-05-23 18:58:46

可以通过命令行使用-r选项指定作业的运行器。在

当您从命令行运行mrjob脚本时，默认的运行模式是inline，它在一个进程中在本地计算机上运行您的作业。运行作业的其他明显选项是emr和{}。在

通过将运行器设置为local，可以使作业在本地计算机上并行运行

$ python myjob.py -r local

这些 jobconf选项仅由Hadoop识别（即在EMR或Hadoop集群上）。在