pytorch中的强化学习
pytorch-polic的Python项目详细描述
Pythorch中的深度强化学习
这个存储库包含pytorch中所有标准的无模型和基于模型(coming)的rl算法。(可能还包含我目前正在研究的一些研究想法)
这是什么?
pytorch-rl在pytorch中实现了一些最新的深度强化学习算法,特别是那些与连续动作空间相关的算法。你可以在cpu或gpu上有效地训练你的算法。此外,pytorch rl与openai健身房合作。这意味着评估和玩弄不同的算法是很容易的。当然你可以根据自己的需要扩展pytorch rl。 tl:dr:pytorch-rl使得运行最先进的深度强化学习算法变得非常容易。
依赖关系
- 火把
- 健身房(openai)
- mujoco py(用于健身房的物理模拟和机器人环境)
- pybullet(即将推出)
- MPI(仅支持MPI后端pytorch安装)
- 张力板(https://github.com/lanpa/tensorboardX)
rl算法
- DQN(带双Q学习)
- DDPG
- 与她一起使用DDPG(用于OpenAI获取环境)
- 继承性强化学习
- 优先体验重播+DDPG
- 具有优先后见体验重播(研究)的DDPG
- A3C神经图(即将推出)
- 彩虹DQN(即将推出)
- PPO
- 她以自我关注为目标替代(研究)
- A3C(即将推出)
- 宏(即将推出)
- 达拉
- TDM
- 世界车型
- 软演员评论家
环境
- 突破
- Pong(即将推出)
- 手动操作机器人任务
- 获取并到达机器人任务
- 手动到达机器人任务
- 块操作机器人任务
- Montezuma的复仇(当前研究)
- 陷阱
- 引力
- 携带
- opensim假肢nips挑战(https://www.crowdai.org/challenges/nips-2018-ai-for-prosthetics-challenge)
环境建模(用于勘探和领域适应)
由于发生器和鉴别器训练的不稳定性,采用了多种gan训练方法。 有关详细信息,请参阅https://github.com/soumith/ganhacks。
即使使用了这些技巧,也很难训练gan收敛。 然而,在使用谱归一化(https://arxiv.org/abs/1802.05957)之后,infogan被训练为收敛。
对于使用gans的图像到图像翻译任务和一般的vaes,使用skip连接的训练确实有助于训练。
- β值
- 信息根
- CVae-GaN
- 基于流的生成模型(研究)
- 萨甘
- 顺序出席、推断、重复
- 好奇心驱动的探索
- 探测用参数空间噪声
- 嘈杂的网络
参考资料
- 利用深度强化学习玩atari,mnih等人,2013年
- 《通过深度强化学习实现人的水平控制》,MNIH等人,2015年
- 双Q学习深度强化学习,van Hasselt等人,2015年
- 深度强化学习持续控制,Lillicrap等人,2015年
- CVae-Gan:通过非对称训练生成细粒度图像,Bao等人,2017年
- Beta VAE:使用约束变分框架学习基本视觉概念,Higgins等人,2017年
- 事后经验回放,andrychowicz等人,2017年 <信息>:信息的最大化生成对抗网的可解释表示学习,陈等人,2016</LI>
- 世界模型,Ha等人,2018年
- 生成性对抗网络的谱归一化,Miyato等人,2018年
- 自我关注生成性对抗网络,Zhang等人,2018年
- 好奇心驱动的自我监督预测探索,Pathak等人,2017年李> 软角色评论家:随机策略的最大熵深度强化学习,HaRojja等人,2018</LI>
- 勘探用参数空间噪声,Plappert等人,2018
- 勘探用噪声网络,Fortunato等人,2018年
- 近端策略优化算法,舒尔曼等,2017</LI>