什么是Hadoop Streaming Run命令来访问子目录中的文件

2024-04-25 07:53:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经用python为hadoop Map Reduce框架编写了一个mapper程序。你知道吗

我通过命令来执行它:

hadoop jar /usr/hdp/2.3.2.0-2950/hadoop-mapreduce/hadoop-streaming.jar -mapper "python wordcount_mapper.py" -file wordcount_mapper.py -input inputfile -output outputfile3

如果目录inputfile仅包含文件,则它工作正常。你知道吗

但如果inputfile目录中有子目录,则它不工作并显示错误。就像我在inputfile中有两个子目录(KAKA和KAKU)。你知道吗

错误显示为:

16/07/20 17:01:40 ERROR streaming.StreamJob: Error Launching job : Not a file: hdfs://secondary/user/team/inputfile/kaka

所以,我的问题是,将什么命令到达子目录中的文件。你知道吗


Tags: 文件py命令目录hadoop框架mapreduce
1条回答
网友
1楼 · 发布于 2024-04-25 07:53:17

使用正则表达式:

inputfile/*-适用于1级子目录

inputfile/*/*-适用于2级子目录

运行方式:

hadoop jar /usr/hdp/2.3.2.0-2950/hadoop-mapreduce/hadoop-streaming.jar -mapper "python wordcount_mapper.py" -file wordcount_mapper.py -input inputfile/* -output outputfile3

相关问题 更多 >