重用两个MapReduce作业的输出并将结果合并在一起

2024-05-15 10:07:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我想加入两个不同MapReduce作业的输出。我希望能够像下面这样做,但我不知道如何重用以前工作的结果并加入它们。我怎么能这样做

Job1: 
Andrea Vanzo, c288f70f-f417-4a96-8528-25c61372cae7, 125 

Job2:
c288f70f-f417-4a96-8528-25c61372cae7, 071e1103-1b06-4671-8324-a9beb3e90d18, 25

Result:
Andrea Vanzo, c288f70f-f417-4a96-8528-25c61372cae7,  25

Tags: 作业resultmapreduceandreajob1job2vanzoa9beb3e90d18
1条回答
网友
1楼 · 发布于 2024-05-15 10:07:40

您可以使用JobControl在mappereduce中设置您的工作流,顺便说一句,read job1&;job2的输出(使用MultipleInputs)也可以解决您的问题

使用不同的处理方法,并根据数据的路径写入数据

制图员

job1data==job1.path=>;拆分写入键数据[1],值数据[0]+“tagjob1”

job2data==job2.path=>;拆分写入键数据[0],值数据[0]+“tagjob2”

减速器
每个键都有它的值集

按“标记”将值放入两个列表组

写出两个列表的键和每个笛卡尔积

希望

相关问题 更多 >