java Hadoop MapReduce两个文件的连接和分组值的计算
我对Hadoop和MapReduce编程相当陌生。我想知道在连接两个文件后是否可以按另一个值(不是键)分组
我有两个文件,其中包含以下数据
文件1
name marks
A Male
B Male
C Female
文件2
name marks
A 25
B 28
A 30
C 22
现在有没有办法找出每个性别的分数百分比。我试图得到以下输出
Male percentage_of_marks_of_male_students
Female percentage_of_marks_of_female_students
在一项工作中是否有这样做的方法。我试着用两份工作来做这件事,但没有任何进展
任何提示都将不胜感激
编辑:
加入这些文件后,我得到了这样的东西
{name1 - ["gender","marks1","marks2",...]}
{name2 - ["gender","marks1","marks2",...]}
{name3 - ["gender","marks1","marks2",...]}
...
目前,我一直在寻找男性和女性在减缩阶段的分数总和
编辑:
我已经解决了这个问题。我做过两份工作。第一个作业连接两个文件,输出为
[gender, the sum of marks of each student]
我将输出文件作为输入发送到第二个作业,该作业按性别给出分数百分比
共 (0) 个答案