最先进的观点式DQN训练和推理
sota-dqn的Python项目详细描述
最先进的深度Q网络
sota_dqn是一个固执己见的deepq网络库,专注于富有成效的实现。在
sota_dqn使最先进的强化学习变得简单而高效。 默认情况下实现Prioritized Experience Replay和固定q目标训练等方法。在
正在考虑采用其他方法,例如:
- https://cs.brown.edu/people/kasadiat/pdf/deep_mellow.pdf
- https://www.hindawi.com/journals/mpe/2018/2129393/abs/
- Hindsight Experience Replay通过简单易用的接口公开。在
概述
目标
- 提供一个良好的api来与最先进的深度Q学习交互
- 必要时进行抽象,不要过度抽象。这不是一个图书馆为那些不知道DQN体系结构的人
非目标
- 提供完整的深度Q学习api。在
- dqn模型的一行程序(即
rainbow = RainbowModel(env=env)
)
示例
安装
sota_dqn通过CI/CD工作流在pypi上发布
pip install sota_dqn
sota_dqn也可以作为git repo安装:
^{pr2}$快速启动
电池包括examples/
中的示例。在
手推车
最快的例子是使用CartPole-v1
环境的basic。在
Cartpole-V1培训前
你可以很快为自己培养一个模特儿。在
该模型具有以下架构:
这是由training script创建的。在
python examples/basic/dqn_train.py
保存第一个检查点后,可以测试模型。在
python examples/basic/dqn_inference.py
Cartpole-V1训练后
帕克曼女士
此示例建立在基本示例中设置的基础之上。 在Ms-Pacman示例中,原始图像数据在每个步骤都从环境返回。 预处理将图像转换为灰度,以降低输入空间的维数。在
上面使用了一个卷积结构模型:
强烈建议使用GPU来训练此模型。在
- 项目
标签: