#失败的映射任务超过了允许的限制

#!/usr/bin/env python import sys, urllib, re title_re = re.compile("<title>(.*?)</title>", re.MULTILINE | re.DOTALL | re.IGNORECASE) for line in sys.stdin: url = line.strip() match = title_re.search(urllib.urlopen(url).read()) if match : print url, "\t", match.group(1).strip()

shekhar@ubuntu:/host/Shekhar/Softwares/hadoop-1.0.0$ hadoop jar contrib/streaming/hadoop-streaming-1.0.0.jar -mapper /host/Shekhar/HadoopWorld/MultiFetch.py -reducer /host/Shekhar/HadoopWorld/reducer.py -input /host/Shekhar/HadoopWorld/urls/* -output /host/Shekhar/HadoopWorld/titles3 Warning: $HADOOP_HOME is deprecated. packageJobJar: [/tmp/hadoop-shekhar/hadoop-unjar2709939812732871143/] [] /tmp/streamjob1176812134999992997.jar tmpDir=null 12/05/27 11:27:46 INFO util.NativeCodeLoader: Loaded the native-hadoop library 12/05/27 11:27:46 INFO mapred.FileInputFormat: Total input paths to process : 3 12/05/27 11:27:46 INFO streaming.StreamJob: getLocalDirs(): [/tmp/hadoop-shekhar/mapred/local] 12/05/27 11:27:46 INFO streaming.StreamJob: Running job: job_201205271050_0006 12/05/27 11:27:46 INFO streaming.StreamJob: To kill this job, run: 12/05/27 11:27:46 INFO streaming.StreamJob: /host/Shekhar/Softwares/hadoop-1.0.0/libexec/../bin/hadoop job -Dmapred.job.tracker=localhost:9001 -kill job_201205271050_0006 12/05/27 11:27:46 INFO streaming.StreamJob: Tracking URL: http://localhost:50030/jobdetails.jsp?jobid=job_201205271050_0006 12/05/27 11:27:47 INFO streaming.StreamJob: map 0% reduce 0% 12/05/27 11:28:07 INFO streaming.StreamJob: map 67% reduce 0% 12/05/27 11:28:37 INFO streaming.StreamJob: map 100% reduce 0% 12/05/27 11:28:40 INFO streaming.StreamJob: map 100% reduce 11% 12/05/27 11:28:49 INFO streaming.StreamJob: map 100% reduce 22% 12/05/27 11:31:35 INFO streaming.StreamJob: map 67% reduce 22% 12/05/27 11:31:44 INFO streaming.StreamJob: map 100% reduce 22% 12/05/27 11:34:52 INFO streaming.StreamJob: map 67% reduce 22% 12/05/27 11:35:01 INFO streaming.StreamJob: map 100% reduce 22% 12/05/27 11:38:11 INFO streaming.StreamJob: map 67% reduce 22% 12/05/27 11:38:20 INFO streaming.StreamJob: map 100% reduce 22% 12/05/27 11:41:29 INFO streaming.StreamJob: map 67% reduce 22% 12/05/27 11:41:35 INFO streaming.StreamJob: map 100% reduce 100% 12/05/27 11:41:35 INFO streaming.StreamJob: To kill this job, run: 12/05/27 11:41:35 INFO streaming.StreamJob: /host/Shekhar/Softwares/hadoop-1.0.0/libexec/../bin/hadoop job -Dmapred.job.tracker=localhost:9001 -kill job_201205271050_0006 12/05/27 11:41:35 INFO streaming.StreamJob: Tracking URL: http://localhost:50030/jobdetails.jsp?jobid=job_201205271050_0006 12/05/27 11:41:35 ERROR streaming.StreamJob: Job not successful. Error: # of failed Map Tasks exceeded allowed limit. FailedCount: 1. LastFailedTask: task_201205271050_0006_m_000001 12/05/27 11:41:35 INFO streaming.StreamJob: killJob... Streaming Job Failed!

Hadoop job_201205271050_0006 on localhost User: shekhar Job Name: streamjob1176812134999992997.jar Job File: file:/tmp/hadoop-shekhar/mapred/staging/shekhar/.staging/job_201205271050_0006/job.xml Submit Host: ubuntu Submit Host Address: 127.0.1.1 Job-ACLs: All users are allowed Job Setup: Successful Status: Failed Failure Info:# of failed Map Tasks exceeded allowed limit. FailedCount: 1. LastFailedTask: task_201205271050_0006_m_000001 Started at: Sun May 27 11:27:46 IST 2012 Failed at: Sun May 27 11:41:35 IST 2012 Failed in: 13mins, 48sec Job Cleanup: Successful Black-listed TaskTrackers: 1 Kind % Complete Num Tasks Pending Running Complete Killed Failed/Killed Task Attempts map 100.00% 3 0 0 2 1 4 / 0 reduce 100.00% 1 0 0 0 1 0 / 1

3条回答

网友

1楼 · 编辑于 2024-05-14 23:56:50

先检查一下你的标准。您的信息不足以决定它是什么错误，stderr通常在： {your hadoop temp dir here}/mapred/local/userlogs/{your job id}/{your attemp id}/stderr

Sean的答案是第一次使用hadoop时的大多数情况，所以我猜您可能会得到一个“env:python\r:No such file or directory”错误。如果是的话，只要把你的CR换成LF就可以解决这个问题。只需运行一个脚本将其替换为

网友

2楼 · 编辑于 2024-05-14 23:56:50

此错误只是一个常规错误，太多映射任务未能完成：

of failed Map Tasks exceeded allowed limit

您可以使用EMR控制台导航到各个Map/Reduce任务的日志。那么你应该能看到问题所在。

在我的例子中，当我犯了一些小错误时，我就犯了这个错误，比如错误地设置了映射脚本的路径。

查看任务日志的步骤：

http://antipatterns.blogspot.nl/2013/03/amazon-emr-map-reduce-error-of-failed.html

网友

3楼 · 编辑于 2024-05-14 23:56:50

我刚才也出现了同样的错误。在我的例子中，结果是一个解析错误。有一个“意外”的新线在一些地方，stdin分裂线。我建议检查一下你的数据文件。一旦我移除了有这些新行的列，它就工作得很好了。

of failed Map Tasks exceeded allowed limit

相关问题更多 >

编程相关推荐

热门问题

热门文章