java Hadoop MapReduce两个文件的连接和分组值的计算

3 周，6 日 Questions & Answers 50

我对Hadoop和MapReduce编程相当陌生。我想知道在连接两个文件后是否可以按另一个值（不是键）分组

我有两个文件，其中包含以下数据

文件1

name    marks
A       Male
B       Male
C       Female

文件2

name    marks
A       25
B       28
A       30
C       22

现在有没有办法找出每个性别的分数百分比。我试图得到以下输出

Male    percentage_of_marks_of_male_students
Female  percentage_of_marks_of_female_students

在一项工作中是否有这样做的方法。我试着用两份工作来做这件事，但没有任何进展

任何提示都将不胜感激

编辑：

加入这些文件后，我得到了这样的东西

{name1 - ["gender","marks1","marks2",...]}
{name2 - ["gender","marks1","marks2",...]}
{name3 - ["gender","marks1","marks2",...]}
...

目前，我一直在寻找男性和女性在减缩阶段的分数总和

编辑：

我已经解决了这个问题。我做过两份工作。第一个作业连接两个文件，输出为

[gender, the sum of marks of each student]

我将输出文件作为输入发送到第二个作业，该作业按性别给出分数百分比

Python中文网