Python pytorch-polic包_程序模块 - PyPI

pytorch中的强化学习

pytorch-polic的Python项目详细描述

Pythorch中的深度强化学习

这个存储库包含pytorch中所有标准的无模型和基于模型（coming）的rl算法。（可能还包含我目前正在研究的一些研究想法）

这是什么？

pytorch-rl在pytorch中实现了一些最新的深度强化学习算法，特别是那些与连续动作空间相关的算法。你可以在cpu或gpu上有效地训练你的算法。此外，pytorch rl与openai健身房合作。这意味着评估和玩弄不同的算法是很容易的。当然你可以根据自己的需要扩展pytorch rl。 tl:dr:pytorch-rl使得运行最先进的深度强化学习算法变得非常容易。

依赖关系

火把
健身房（openai）
mujoco py（用于健身房的物理模拟和机器人环境）
pybullet（即将推出）
MPI（仅支持MPI后端pytorch安装）
张力板（https://github.com/lanpa/tensorboardX）

rl算法

DQN（带双Q学习）
DDPG
与她一起使用DDPG（用于OpenAI获取环境）
继承性强化学习
优先体验重播+DDPG
具有优先后见体验重播（研究）的DDPG
A3C神经图（即将推出）
彩虹DQN（即将推出）
PPO
她以自我关注为目标替代（研究）
A3C（即将推出）
宏（即将推出）
达拉
TDM
世界车型
软演员评论家

环境

突破
Pong（即将推出）
手动操作机器人任务
获取并到达机器人任务
手动到达机器人任务
块操作机器人任务
Montezuma的复仇（当前研究）
陷阱
引力
携带
opensim假肢nips挑战（https://www.crowdai.org/challenges/nips-2018-ai-for-prosthetics-challenge）

环境建模（用于勘探和领域适应）

由于发生器和鉴别器训练的不稳定性，采用了多种gan训练方法。有关详细信息，请参阅https://github.com/soumith/ganhacks。

即使使用了这些技巧，也很难训练gan收敛。然而，在使用谱归一化（https://arxiv.org/abs/1802.05957）之后，infogan被训练为收敛。

对于使用gans的图像到图像翻译任务和一般的vaes，使用skip连接的训练确实有助于训练。

β值
信息根
CVae-GaN
基于流的生成模型（研究）
萨甘
顺序出席、推断、重复
好奇心驱动的探索
探测用参数空间噪声
嘈杂的网络

参考资料

利用深度强化学习玩atari，mnih等人，2013年
《通过深度强化学习实现人的水平控制》，MNIH等人，2015年
双Q学习深度强化学习，van Hasselt等人，2015年
深度强化学习持续控制，Lillicrap等人，2015年
CVae-Gan:通过非对称训练生成细粒度图像，Bao等人，2017年
Beta VAE:使用约束变分框架学习基本视觉概念，Higgins等人，2017年
事后经验回放，andrychowicz等人，2017年
世界模型，Ha等人，2018年
生成性对抗网络的谱归一化，Miyato等人，2018年
自我关注生成性对抗网络，Zhang等人，2018年
好奇心驱动的自我监督预测探索，Pathak等人，2017年软角色评论家：随机策略的最大熵深度强化学习，HaRojja等人，2018＜/LI>
勘探用参数空间噪声，Plappert等人，2018
勘探用噪声网络，Fortunato等人，2018年
近端策略优化算法，舒尔曼等，2017＜/LI>

欢迎加入QQ群-->： 979659372

pytorch-policy 0.1.1

pytorch-polic的Python项目详细描述

Pythorch中的深度强化学习

这是什么？

依赖关系

rl算法

环境

环境建模（用于勘探和领域适应）

参考资料

推荐PyPI第三方库

nestervaladao

TDhelper

sentrysdk

kinglib

randomuseragent

topsis-abhishek-arora

fast-eval

mangoes101

PY_MK01

distributions-m-h34

fibber

ephys-nlm

pyphe

skymapping-tools

djangootptwilio

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

pytorch-policy 0.1.1

pytorch-polic的Python项目详细描述

Pythorch中的深度强化学习

这是什么？

依赖关系

rl算法

环境

环境建模（用于勘探和领域适应）

参考资料

推荐PyPI第三方库

nestervaladao

TDhelper

sentrysdk

kinglib

randomuseragent

topsis-abhishek-arora

fast-eval

mangoes101

PY_MK01

distributions-m-h34

fibber

ephys-nlm

pyphe

skymapping-tools

djangootptwilio

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签