斯坦福大学强化算法库

Surreal的Python项目详细描述


**`` `
===================================================================================================================================================================================“基准测试”>;“引文”<;“引文”>;`_

开源分布式强化学习框架`_是一个完全集成的
框架,运行最先进的分布式强化学习
(rl)算法。原始:html

<;div align=“center”>;

原始:html

<;/div>;

-**可伸缩性**RL算法天生就需要大量的数据即使是最简单的Atari游戏,比如breakut,也通常需要多达10亿帧来学习一个好的解决方案为了显著地加速训练,SURREAL将环境模拟和学习并行化该系统可以很容易地扩展到数千个CPU和数百个GPU上。分布在策略上和策略外的超现实统一
学习成一个单一的算法公式关键是要把经验的产生和学习分开。并行参与者生成大量的经验数据,而单一的集中式学习者执行模型更新每个参与者都独立地与环境交互,这使得他们能够多样化地探索困难的长视野机器人任务。它们将
体验发送到一个集中缓冲区,该缓冲区可以实例化为
先进先出队列(用于on-policy模式)和重放内存(用于off-policy模式)。原始:html

<;!--<;img src=“.README_images/distributed.png”alt=“drawing”width=“500”/>;-->;

-**再现性**众所周知,RL算法很难重现
[亨德森等人,2017年],这是因为存在多种变化源,如
算法实现细节、库依赖项和硬件
类型我们通过提供一个*端到端集成的
管道*来解决这个问题,它复制了我们完整的集群硬件和软件
运行时设置原始:html

<;!--<;img src=”.readme_images/pipeline.png“alt=”drawing“height=”250“/>;-->;


安装
--



它可以在
单台笔记本电脑上运行,解决更轻松的移动任务,也可以在数百台
机器上运行,解决复杂的操作任务。
docs/contribution.md>;`
\*`文档索引<;docs/index.md>;`


基准测试
----


-超现实PPO的可扩展性,在超现实机器人套件上最多有1024个参与者。

图::自述图片/可伸缩机器人.png
:alt:

-与其他基线相比,开放式人工智能健身房任务16名参与者的训练曲线为3小时,



标题= {超现实:开源强化学习框架和机器人操作基准},
作者= {范,临西和朱,于克和朱,吉人和刘,Zihua和Zeng,Orien和Gupta,Po.and,Y,Y,Y,Y,Y,Y},
书名= {机器人学习会议},
年份={2018}
}


欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java找不到适合makeText的方法   如何将java数组转换为prolog列表并使用它进行jpl查询?   安卓中显示ArrayList的java子类ArrayAdapter   Java8GroupingBy到包含列表的映射中   java Json字符串,带有要映射的嵌套对象<string,string>   java Hibernate中的包和列表有什么区别?   java Spring REST模板指定Jackson视图   java如何在继承的类中返回字符串?   调试Java ArrayQue删除和轮询方法错误   带有NetBeans 7.4的java JSP自定义标记Struts2   java无法从加载jar文件。蝙蝠锉   无法解析java image_项“未显示在下拉列表中且无法键入”   jdoDetachedState设置为null的java查询实体   scala使用Cypher CREATE命令和属性映射,来自Java   minecraft中的java/me并没有被我编写的插件禁用   java Cucumber框架设置   java以奇怪的方式遍历LinkedList?   java JPA将布尔字段配置为保留为整数   月球着陆器中的java Android垃圾收集