我已经用python为hadoop Map Reduce框架编写了一个mapper程序。你知道吗
我通过命令来执行它:
hadoop jar /usr/hdp/2.3.2.0-2950/hadoop-mapreduce/hadoop-streaming.jar -mapper "python wordcount_mapper.py" -file wordcount_mapper.py -input inputfile -output outputfile3
如果目录inputfile仅包含文件,则它工作正常。你知道吗
但如果inputfile目录中有子目录,则它不工作并显示错误。就像我在inputfile中有两个子目录(KAKA和KAKU)。你知道吗
错误显示为:
16/07/20 17:01:40 ERROR streaming.StreamJob: Error Launching job : Not a file: hdfs://secondary/user/team/inputfile/kaka
所以,我的问题是,将什么命令到达子目录中的文件。你知道吗
使用正则表达式:
inputfile/*
-适用于1级子目录inputfile/*/*
-适用于2级子目录运行方式:
hadoop jar /usr/hdp/2.3.2.0-2950/hadoop-mapreduce/hadoop-streaming.jar -mapper "python wordcount_mapper.py" -file wordcount_mapper.py -input inputfile/* -output outputfile3
相关问题 更多 >
编程相关推荐