pytorch中的强化学习

pytorch-polic的Python项目详细描述


Pythorch中的深度强化学习

这个存储库包含pytorch中所有标准的无模型和基于模型(coming)的rl算法。(可能还包含我目前正在研究的一些研究想法)

这是什么?

pytorch-rl在pytorch中实现了一些最新的深度强化学习算法,特别是那些与连续动作空间相关的算法。你可以在cpu或gpu上有效地训练你的算法。此外,pytorch rl与openai健身房合作。这意味着评估和玩弄不同的算法是很容易的。当然你可以根据自己的需要扩展pytorch rl。 tl:dr:pytorch-rl使得运行最先进的深度强化学习算法变得非常容易。

依赖关系

  1. 火把
  2. 健身房(openai)
  3. mujoco py(用于健身房的物理模拟和机器人环境)
  4. pybullet(即将推出)
  5. MPI(仅支持MPI后端pytorch安装)
  6. 张力板(https://github.com/lanpa/tensorboardX

rl算法

  1. DQN(带双Q学习)
  2. DDPG
  3. 与她一起使用DDPG(用于OpenAI获取环境)
  4. 继承性强化学习
  5. 优先体验重播+DDPG
  6. 具有优先后见体验重播(研究)的DDPG
  7. A3C神经图(即将推出)
  8. 彩虹DQN(即将推出)
  9. PPO
  10. 她以自我关注为目标替代(研究)
  11. A3C(即将推出)
  12. 宏(即将推出)
  13. 达拉
  14. TDM
  15. 世界车型
  16. 软演员评论家

环境

  1. 突破
  2. Pong(即将推出)
  3. 手动操作机器人任务
  4. 获取并到达机器人任务
  5. 手动到达机器人任务
  6. 块操作机器人任务
  7. Montezuma的复仇(当前研究)
  8. 陷阱
  9. 引力
  10. 携带
  11. opensim假肢nips挑战(https://www.crowdai.org/challenges/nips-2018-ai-for-prosthetics-challenge

环境建模(用于勘探和领域适应)

由于发生器和鉴别器训练的不稳定性,采用了多种gan训练方法。 有关详细信息,请参阅https://github.com/soumith/ganhacks

即使使用了这些技巧,也很难训练gan收敛。 然而,在使用谱归一化(https://arxiv.org/abs/1802.05957)之后,infogan被训练为收敛。

对于使用gans的图像到图像翻译任务和一般的vaes,使用skip连接的训练确实有助于训练。

  1. β值
  2. 信息根
  3. CVae-GaN
  4. 基于流的生成模型(研究)
  5. 萨甘
  6. 顺序出席、推断、重复
  7. 好奇心驱动的探索
  8. 探测用参数空间噪声
  9. 嘈杂的网络

参考资料

  1. 利用深度强化学习玩atari,mnih等人,2013年
  2. 《通过深度强化学习实现人的水平控制》,MNIH等人,2015年
  3. 双Q学习深度强化学习,van Hasselt等人,2015年
  4. 深度强化学习持续控制,Lillicrap等人,2015年
  5. CVae-Gan:通过非对称训练生成细粒度图像,Bao等人,2017年
  6. Beta VAE:使用约束变分框架学习基本视觉概念,Higgins等人,2017年
  7. 事后经验回放,andrychowicz等人,2017年
  8. <信息>:信息的最大化生成对抗网的可解释表示学习,陈等人,2016</LI>
  9. 世界模型,Ha等人,2018年
  10. 生成性对抗网络的谱归一化,Miyato等人,2018年
  11. 自我关注生成性对抗网络,Zhang等人,2018年
  12. 好奇心驱动的自我监督预测探索,Pathak等人,2017年 软角色评论家:随机策略的最大熵深度强化学习,HaRojja等人,2018</LI>
  13. 勘探用参数空间噪声,Plappert等人,2018
  14. 勘探用噪声网络,Fortunato等人,2018年
  15. 近端策略优化算法,舒尔曼等,2017</LI>

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java中是否有数字的默认类型   java调用一个类的方法来使用另一个类的实例   java HtmlUnit不适用于javascript处理   java需要帮助才能连接MongoDB   java如何从Maven中的src/main/resources复制文件?   java保存Int值(共享首选项)   从另一个类调用方法时,java Autowired组件出现空指针异常   java Spring JPA:PropertyAccessException 1:。。。MethodInvocationException:。'driverClassName'。。。org/postgresql/Driver:不支持的专业。次要版本52.0   java使用增强的JDO模型类在Eclipse中运行Junit测试   java如何使用eclipse IDE为junit创建可运行的jar文件   java如何在安卓中检测应用程序的启动和退出   java在其他线程可以访问静态映射时从数据库更新静态映射   java@Entitty和@EntityScan不起作用。我正在使用SpringBoot和jpa存储库,发生了很多次   java如何与google日历集成?