什么是Hadoop Streaming Run命令来访问子目录中的文件

2024-04-25 07:53:17 发布

您现在位置：Python中文网/ 问答频道 /正文

3958

网友

男 | 程序猿一只，喜欢编程写python代码。

我已经用python为hadoop Map Reduce框架编写了一个mapper程序。你知道吗

我通过命令来执行它：

hadoop jar /usr/hdp/2.3.2.0-2950/hadoop-mapreduce/hadoop-streaming.jar -mapper "python wordcount_mapper.py" -file wordcount_mapper.py -input inputfile -output outputfile3

如果目录inputfile仅包含文件，则它工作正常。你知道吗

但如果inputfile目录中有子目录，则它不工作并显示错误。就像我在inputfile中有两个子目录（KAKA和KAKU）。你知道吗

错误显示为：

16/07/20 17:01:40 ERROR streaming.StreamJob: Error Launching job : Not a file: hdfs://secondary/user/team/inputfile/kaka

所以，我的问题是，将什么命令到达子目录中的文件。你知道吗

Tags：文件 py 命令目录 hadoop 框架 map reduce

1条回答

网友

1楼 · 发布于 2024-04-25 07:53:17

使用正则表达式：

inputfile/*-适用于1级子目录

inputfile/*/*-适用于2级子目录

运行方式：

hadoop jar /usr/hdp/2.3.2.0-2950/hadoop-mapreduce/hadoop-streaming.jar -mapper "python wordcount_mapper.py" -file wordcount_mapper.py -input inputfile/* -output outputfile3

什么是Hadoop Streaming Run命令来访问子目录中的文件

相关问题更多 >

编程相关推荐

热门问题

热门文章

什么是Hadoop Streaming Run命令来访问子目录中的文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >