在经历了快速的s之后,在使用hadoop时遇到了一些问题

2024-05-19 22:26:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我遇到一个错误,我想这与我如何设置目录有关:

运行后:

hadoop-0.20.205.0/bin/hadoop jar hadoop-0.20.205.0/contrib/streaming/hadoop streaming-*.jar-file映射器.py-制图员映射器.py-文件减速器.py-减速器减速器.py-输入cs4501input-输出py_wc_

我得到: 包装作业jar:[映射器.py, 减速器.py,/tmp/hadoop ubuntu/hadoop-unjar612016690685708018/][]/tmp/streamjob1341652915014758694.jar tmpDir=null

2008年4月12日01:34:01信息mapred.JobClient: 清理临时区域hdfs://localhost:9000/tmp/hadoop ubuntu/mapred/staging/ubuntu/.staging/job_201204080100 U 0004

2008年4月12日01:34:01 错误流式处理.StreamJob:启动作业时出错,输出路径已存在:Output directoryhdfs://localhost:9000/user/ubuntu/py_wc_out已存在 流作业失败!在

我想这和我指定核心的时候有关-站点.xml用hdfs文件,但那是在快速入门指南中。我不明白为什么我需要在带有端口号的本地主机地址旁边指定hdfs。在


Tags: 文件pyhadooplocalhostubuntu错误作业hdfs
1条回答
网友
1楼 · 发布于 2024-05-19 22:26:49

问题是您试图在不清理输出目录的情况下运行相同的作业。请先删除输出目录,然后重新运行它。你必须在每一份工作之间做这件事。Hadoop失败了,而不是让您覆盖目录。在

hadoop fs -rmr /user/ubuntu/py_wc_out

就我个人而言,解决这个“问题”的方法是动态地将时间戳附加到输出目录。这样,它将永远是独一无二的,你不必摆脱以前的运行。在

^{pr2}$

相关问题 更多 >