在经历了快速的s之后，在使用hadoop时遇到了一些问题 - 问答 - Python中文网

在经历了快速的s之后，在使用hadoop时遇到了一些问题

2024-05-19 22:26:49 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我遇到一个错误，我想这与我如何设置目录有关：

运行后：

hadoop-0.20.205.0/bin/hadoop jar hadoop-0.20.205.0/contrib/streaming/hadoop streaming-*.jar-file映射器.py-制图员映射器.py-文件减速器.py-减速器减速器.py-输入cs4501input-输出py_wc_

我得到：包装作业jar：[映射器.py, 减速器.py，/tmp/hadoop ubuntu/hadoop-unjar612016690685708018/][]/tmp/streamjob1341652915014758694.jar tmpDir=null

2008年4月12日01:34:01信息mapred.JobClient: 清理临时区域hdfs://localhost：9000/tmp/hadoop ubuntu/mapred/staging/ubuntu/.staging/job_201204080100 U 0004

2008年4月12日01:34:01 错误流式处理.StreamJob：启动作业时出错，输出路径已存在：Output directoryhdfs://localhost：9000/user/ubuntu/py_wc_out已存在流作业失败！在

我想这和我指定核心的时候有关-站点.xml用hdfs文件，但那是在快速入门指南中。我不明白为什么我需要在带有端口号的本地主机地址旁边指定hdfs。在

Tags：文件 py hadoop localhost ubuntu 错误作业 hdfs

1条回答

网友

1楼 · 发布于 2024-05-19 22:26:49

问题是您试图在不清理输出目录的情况下运行相同的作业。请先删除输出目录，然后重新运行它。你必须在每一份工作之间做这件事。Hadoop失败了，而不是让您覆盖目录。在

hadoop fs -rmr /user/ubuntu/py_wc_out

就我个人而言，解决这个“问题”的方法是动态地将时间戳附加到输出目录。这样，它将永远是独一无二的，你不必摆脱以前的运行。在

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章