Spark在完成进程之前杀死executor

2024-06-02 04:54:11 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个火花应用程序项集。在首先我得到所有不同的项目，然后把它们配对。项目的数量相当大，我使用的是m4.Xlarge实例，内存为30GB。在

  l = l.map(lambda x:(x[1])).distinct()
  lbroadcast = spark.broadcast(l.collect())
  x = spark.parallelize(itertools.combinations(l.collect(),2)).filter(lambda x:randomTest(x,lbroadcast))
  print x.collect()

第158行的作业3是x，生成对并过滤其中的对广播声明最后没有打印任何内容。相同的代码在本地计算机上运行，但不在EMR实例上运行。我想这可能是RDD内存的问题。所有元组都存储在广播变量中。在

16/12/03 19:24:26信息YarnScheduler:已从池中删除任务集18.0，其任务已全部完成

16/12/03 19:24:26 INFO DAGScheduler:resultstage18（collect at/home/hadoop/t.py:158）在0.971s内完成

16/12/03 19:24:26 INFO DAGScheduler:作业3完成：collect at/home/hadoop/t.py:158，耗时1.039357秒

16/12/03 19:24:28信息YarnClientSchedulerBackend:请求杀死执行者7

16/12/03 19:24:28信息执行器分配管理器：删除执行器7，因为它已经空闲了60秒（新的期望总数将是8）

2003年12月16日19:24:32信息YarnSchedulerBackend$YarnDriverEndpoint:禁用执行器7。在

16/12/03 19:24:32信息DAGScheduler:执行器丢失：7（epoch 4）

16/12/03 19:24:32信息BlockManagerMasterEndpoint:正在尝试从BlockManagerMaster中删除executor 7。在

Tags：项目实例 lambda 内存 info hadoop 信息 home

0条回答

目前没有回答

Spark在完成进程之前杀死executor

相关问题更多 >

编程相关推荐

热门问题

热门文章

Spark在完成进程之前杀死executor

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >