Spark在完成进程之前杀死executor

2024-06-02 04:54:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个火花应用程序项集。在首先我得到所有不同的项目,然后把它们配对。 项目的数量相当大,我使用的是m4.Xlarge实例,内存为30GB。在

  l = l.map(lambda x:(x[1])).distinct()
  lbroadcast = spark.broadcast(l.collect())
  x = spark.parallelize(itertools.combinations(l.collect(),2)).filter(lambda x:randomTest(x,lbroadcast))
  print x.collect()

第158行的作业3是x,生成对并过滤其中的对广播声明最后没有打印任何内容。 相同的代码在本地计算机上运行,但不在EMR实例上运行。 我想这可能是RDD内存的问题。所有元组都存储在广播变量中。在

16/12/03 19:24:26信息YarnScheduler:已从池中删除任务集18.0,其任务已全部完成

16/12/03 19:24:26 INFO DAGScheduler:resultstage18(collect at/home/hadoop/t.py:158)在0.971s内完成

16/12/03 19:24:26 INFO DAGScheduler:作业3完成:collect at/home/hadoop/t.py:158,耗时1.039357秒

16/12/03 19:24:28信息YarnClientSchedulerBackend:请求杀死执行者7

16/12/03 19:24:28信息执行器分配管理器:删除执行器7,因为它已经空闲了60秒(新的期望总数将是8)

2003年12月16日19:24:32信息YarnSchedulerBackend$YarnDriverEndpoint:禁用执行器7。在

16/12/03 19:24:32信息DAGScheduler:执行器丢失:7(epoch 4)

16/12/03 19:24:32信息BlockManagerMasterEndpoint:正在尝试从BlockManagerMaster中删除executor 7。在


Tags: 项目实例lambda内存infohadoop信息home