最先进的观点式DQN训练和推理

sota-dqn的Python项目详细描述


最先进的深度Q网络

sota_dqn是一个固执己见的deepq网络库,专注于富有成效的实现。在

sota_dqn使最先进的强化学习变得简单而高效。 默认情况下实现Prioritized Experience Replay和固定q目标训练等方法。在

正在考虑采用其他方法,例如:

概述

目标

  • 提供一个良好的api来与最先进的深度Q学习交互
  • 必要时进行抽象,不要过度抽象。这不是一个图书馆为那些不知道DQN体系结构的人

非目标

  • 提供完整的深度Q学习api。在
  • dqn模型的一行程序(即rainbow = RainbowModel(env=env)

示例

安装

sota_dqn通过CI/CD工作流在pypi上发布

pip install sota_dqn

sota_dqn也可以作为git repo安装:

^{pr2}$

快速启动

电池包括examples/中的示例。在

手推车

最快的例子是使用CartPole-v1环境的basic。在

random sample video

Cartpole-V1培训前

你可以很快为自己培养一个模特儿。在

该模型具有以下架构:

model architecture

这是由training script创建的。在

python examples/basic/dqn_train.py

保存第一个检查点后,可以测试模型。在

python examples/basic/dqn_inference.py

trained sample video

Cartpole-V1训练后

帕克曼女士

此示例建立在基本示例中设置的基础之上。 在Ms-Pacman示例中,原始图像数据在每个步骤都从环境返回。 预处理将图像转换为灰度,以降低输入空间的维数。在

上面使用了一个卷积结构模型: cnn architecture

强烈建议使用GPU来训练此模型。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在jetty请求日志中添加milliscond字段?   java在使用Scanner类从文件读取信息时遇到问题   为什么。类不适用于泛型类型?   SQLite插入上的java空指针异常   java能告诉我们Guava缓存是在禁用统计数据的情况下构建的吗?   java在应用程序中使用常量   java无法使用AutoIT和Selenium Webdriver在所需位置/文件夹保存图像   java如何在jtable中更新jprogress栏   java是比较给定日期和当前日期(在给定时区中没有时间段)的最佳方法   安卓代码中的java错误   java无法访问实体类中的字段   java如何在tomcat中处理三个JDBC连接池?   java无法使用Spring Security保护AngularJS页面   如何在没有TCP/IP协议栈的情况下用Java发送以太帧