fanstore在计算机集群中收集本地存储空间,以便使用更大的数据集进行分布式神经网络训练

fanstore的Python项目详细描述


#概述 fanstore是一种支持并行神经网络训练的共享对象存储。fanstore通过fusepy提供一个posix兼容的文件系统接口,并通过mpi4py提供低延迟通信。fanstore可以在运行时使用主存储器、ram磁盘和本地存储器进行瞬时并行i/o。

#开始 ` sbatch bin/fanstore.slurm `

#手动启动fanstore ##完整的imagenet数据集 ` module load python3 mpiexec.hydra -f../test/hostfile-ppn 1 python3 fanstore.py /tmp/amfora /tmp/data --loadscatter/work/00946/zzhang/imagenet/16-parts--loadbcast/work/00946/zzhang/imagenet/16-parts-validation & `

##ImageNet数据集的四分之一 ` mpiexec.hydra -f../test/hostfile-ppn 1 python3 fanstore.py /tmp/amfora /tmp/data --loadscatter /work/00946/zzhang/imagen et/16-parts-test--loadbcast/work/00946/zzhang/imagenet/16-parts-validation & `

#运行horovod应用程序 ` module load cuda/9.0 cudnn/7.0 mpiexec.hydra -f /work/00946/zzhang/maverick2/fanstore/test/hostfile -ppn 4  python3 keras_imagenet_resnet50_fanstore.py `

#在终止作业之前 ` for h in `cat ../test/hostfile`; do   ssh $h "rm -rf /tmp/data; mkdir /tmp/data; mkdir -p /tmp/amfora; rm /tmp/fuse-fanstore.log; fusermount -u /tmp/amfora"; done `

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在创建对话框时设置模糊背景   java支持clojure中的xml和json REST响应   java在Android中通过多个JSON对象循环   java如何创建T类型的新对象   Java应用程序的设计   java使用GridView、适配器和毕加索制作流行电影应用程序   java在映射中交换值   java在同一活动/布局中多次使用同一片段   使用FixedLengthTokenizer使用java Spring FlatFileItemReader   javajavax。xml。ws。WebServiceException:javax。xml。肥皂SOAPException:错误代码QName必须是命名空间限定的!在weblogic server 12c中部署时   当我在构造函数中调用java Autowired属性时,该属性为null   线程“main”java中的linux异常。网BindException:地址已在使用中   java检查两个日期周期是否重叠   有没有办法通过安卓应用程序自动检测java服务器应用程序是否在线?   java检查2D数组中4个连续相同的对角线元素(连接4个游戏)   向Java数组添加数据   java组织。弹性搜索。客户运输NoNodeAvailableException:配置的节点均不可用:[]