chainerl,一个深度强化学习库

chainerrl的Python项目详细描述


链错误

Build StatusCoverage StatusDocumentation StatusPyPI

ChaneRL是一个深度强化学习库,利用{a5},一个灵活的深度学习框架,在Python中实现了各种最先进的深度增强算法。

BreakoutHumanoidGrasping

安装

chainerrl使用python 2.7+和3.5.1+进行测试。有关其他要求,请参见requirements.txt

chainerrl可以通过pypi安装:

pip install chainerrl

也可以从源代码安装它:

python setup.py install

有关安装的详细信息,请参阅Installation

开始

你可以先试一下ChainerRL Quickstart Guide,或者检查一下examples准备好去参加阿塔里2600,然后打开人工智能健身房。

有关详细信息,请参阅ChainerRL's documentation

算法

AlgorithmDiscrete ActionContinous ActionRecurrent ModelCPU Async Training
DQN (including DoubleDQN etc.)✓ (NAF)x
Categorical DQNxx
Rainbowxx
IQNxxx
DDPGxx
A3C
ACER
NSQ (N-step Q-learning)✓ (NAF)
PCL (Path Consistency Learning)
PPOx
TRPOxx
TD3xxx

在chainerl中实现了以下算法:

  • a3c(异步优势参与者评论员)
  • 宏(带体验重播的演员评论家)
  • 异步n步q-学习
  • 彩虹
  • 分类dqn
  • 智商
  • DQN(包括双DQN、持续优势学习(PAL)、双PAL、动态策略规划(DPP))
  • DDPG(深度确定性策略梯度)(包括SVG(0))
  • 政策梯度定理
  • 路径一致性学习
  • PPO(近端策略优化)
  • trpo(信任区域策略优化)
  • TD3(双延迟深层确定性策略梯度算法)

基于q函数的算法(如dqn)可以利用标准化优势函数(naf)来解决连续动作问题以及类dqn的离散输出网络。

纸面实现

以下文件已在chainerrl中实现:

可视化

chainerrl有一组附带的visualization tools,以帮助开发人员理解和调试其rl代理。有了这个可视化工具,chainerl代理的行为可以从浏览器ui中轻松地检查。

环境

可以使用支持openai gym接口子集(resetstep方法)的环境。

贡献

任何对Chainerrl的贡献都将非常感谢!如果您对chainerrl感兴趣,请阅读CONTRIBUTING.md

许可证

MIT License

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java apache Jclouds与quarkus兼容吗?   java Switch语句和字符串到字节   java在Windows中处理unix路径   java将XML中的不同值插入数据库表   Android Room中带日期的java查询   java如何将vaadin7与googlemap连接起来   java有条件地忽略特定属性DTO   数据库中的java Spring最后一个ID作为JSP中的默认输入值。。怎样   java创建和使用匿名可运行类的最佳方法   关于布尔语句中参数的java问题   java JMH:无法创建SecurityManager:worker。组织。格拉德尔。过程内部的工人小孩BootstrapSecurityManager   JavaXMLStreamReader编码   java Hibernate空指针位于AbstractUserTypeHibernateIntegrator用户类型   安卓支持v7。小装置。在使用安卓 studio的java文件中找不到工具栏?   java从res文件夹中读取名为的文件(从变量读取)   java如何解决“图形设备初始化失败:d3d、sw”问题   java字节缓冲区可以用作“长寿”静态对象吗?   java如何获取currentlyloggedin用户的用户名   java如何优雅地检测SSL