实现Spark+AWS+Caffe/CUDA的最佳方式?

2024-04-20 04:31:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我希望部署一个已经有一个经过训练的caffemodel文件的应用程序,我需要将它部署到AWS上的Spark集群进行处理,因为需要GPU计算能力(每个图像有20K个补丁)。从我的研究看来,最好的方法是使用Spark创建一个AWS集群,然后运行Docker映像或amazonami来自动安装项目依赖项。一旦一切都安装好了,作业就可以通过Spark在集群中运行。我想知道的是如何从头到尾做到这一点。我看过几本指南,并参加了一些关于Spark(BerkeleyX,Udemy)和Docker(Udemy)的在线课程;然而,我所看到的几乎所有信息都是如何实现最简单的应用程序的示例,该应用程序几乎没有重软件依赖性(CUDA驱动程序、CuDNN、Caffe、DIGITS)。我在AWS上部署了Spark集群,并运行了一些没有依赖关系的简单示例,但是对于运行一个甚至需要一个小依赖(比如numpy)的应用程序,我几乎没有发现任何信息。我想利用小组的力量,看看是否有人在这方面有经验,并能为我指出正确的方向或提供一些帮助/建议?在

以下是我调查过的一些事情:
Docker+NVIDIA:https://github.com/NVIDIA/nvidia-docker
比特融合AMI:https://aws.amazon.com/marketplace/pp/B01DJ93C7Q/ref=sp_mpg_product_title?ie=UTF8&sr=0-13

我的问题是如何实现一个小的示例应用程序,在安装Docker或AMI所需的依赖关系时,如何自动并行创建Spark集群?在

注意:
平台:Ubuntu 14.04
语言:Python
依赖项:CUDA 7.5、caffe­nv、libcudnn4、NVIDIA图形驱动程序(346-352)


Tags: dockerhttpscomaws信息应用程序示例关系