斯坦福大学强化算法库
Surreal的Python项目详细描述
**`` `
===================================================================================================================================================================================“基准测试”>;“引文”<;“引文”>;`_
开源分布式强化学习框架`_是一个完全集成的
框架,运行最先进的分布式强化学习
(rl)算法。原始:html
<;div align=“center”>;
原始:html
<;/div>;
-**可伸缩性**RL算法天生就需要大量的数据即使是最简单的Atari游戏,比如breakut,也通常需要多达10亿帧来学习一个好的解决方案为了显著地加速训练,SURREAL将环境模拟和学习并行化该系统可以很容易地扩展到数千个CPU和数百个GPU上。分布在策略上和策略外的超现实统一
学习成一个单一的算法公式关键是要把经验的产生和学习分开。并行参与者生成大量的经验数据,而单一的集中式学习者执行模型更新每个参与者都独立地与环境交互,这使得他们能够多样化地探索困难的长视野机器人任务。它们将
体验发送到一个集中缓冲区,该缓冲区可以实例化为
先进先出队列(用于on-policy模式)和重放内存(用于off-policy模式)。原始:html
<;!--<;img src=“.README_images/distributed.png”alt=“drawing”width=“500”/>;-->;
-**再现性**众所周知,RL算法很难重现
[亨德森等人,2017年],这是因为存在多种变化源,如
算法实现细节、库依赖项和硬件
类型我们通过提供一个*端到端集成的
管道*来解决这个问题,它复制了我们完整的集群硬件和软件
运行时设置原始:html
<;!--<;img src=”.readme_images/pipeline.png“alt=”drawing“height=”250“/>;-->;
安装
--
它可以在
单台笔记本电脑上运行,解决更轻松的移动任务,也可以在数百台
机器上运行,解决复杂的操作任务。
docs/contribution.md>;`
\*`文档索引<;docs/index.md>;`
基准测试
----
-超现实PPO的可扩展性,在超现实机器人套件上最多有1024个参与者。
图::自述图片/可伸缩机器人.png
:alt:
-与其他基线相比,开放式人工智能健身房任务16名参与者的训练曲线为3小时,
,
标题= {超现实:开源强化学习框架和机器人操作基准},
作者= {范,临西和朱,于克和朱,吉人和刘,Zihua和Zeng,Orien和Gupta,Po.and,Y,Y,Y,Y,Y,Y},
书名= {机器人学习会议},
年份={2018}
}
===================================================================================================================================================================================“基准测试”>;“引文”<;“引文”>;`_
开源分布式强化学习框架`_是一个完全集成的
框架,运行最先进的分布式强化学习
(rl)算法。原始:html
<;div align=“center”>;
原始:html
<;/div>;
-**可伸缩性**RL算法天生就需要大量的数据即使是最简单的Atari游戏,比如breakut,也通常需要多达10亿帧来学习一个好的解决方案为了显著地加速训练,SURREAL将环境模拟和学习并行化该系统可以很容易地扩展到数千个CPU和数百个GPU上。分布在策略上和策略外的超现实统一
学习成一个单一的算法公式关键是要把经验的产生和学习分开。并行参与者生成大量的经验数据,而单一的集中式学习者执行模型更新每个参与者都独立地与环境交互,这使得他们能够多样化地探索困难的长视野机器人任务。它们将
体验发送到一个集中缓冲区,该缓冲区可以实例化为
先进先出队列(用于on-policy模式)和重放内存(用于off-policy模式)。原始:html
<;!--<;img src=“.README_images/distributed.png”alt=“drawing”width=“500”/>;-->;
-**再现性**众所周知,RL算法很难重现
[亨德森等人,2017年],这是因为存在多种变化源,如
算法实现细节、库依赖项和硬件
类型我们通过提供一个*端到端集成的
管道*来解决这个问题,它复制了我们完整的集群硬件和软件
运行时设置原始:html
<;!--<;img src=”.readme_images/pipeline.png“alt=”drawing“height=”250“/>;-->;
安装
--
它可以在
单台笔记本电脑上运行,解决更轻松的移动任务,也可以在数百台
机器上运行,解决复杂的操作任务。
docs/contribution.md>;`
\*`文档索引<;docs/index.md>;`
基准测试
----
-超现实PPO的可扩展性,在超现实机器人套件上最多有1024个参与者。
图::自述图片/可伸缩机器人.png
:alt:
-与其他基线相比,开放式人工智能健身房任务16名参与者的训练曲线为3小时,
,
标题= {超现实:开源强化学习框架和机器人操作基准},
作者= {范,临西和朱,于克和朱,吉人和刘,Zihua和Zeng,Orien和Gupta,Po.and,Y,Y,Y,Y,Y,Y},
书名= {机器人学习会议},
年份={2018}
}