基于深度确定性策略梯度(ddpg)的强化学习模型

ddpg-agent的Python项目详细描述


#DDPG U代理 使用深度确定性策略梯度(ddpg)的强化学习代理。

该强化学习模型是[udacity的ddpg模型](https://github.com/udacity/deep-reinforcement-learning/tree/master/ddpg-pendulum)的一个改进版本,它是基于论文[continuous control with deep reinforcement learning](https://arxiv.org/abs/1509.02971)提出的。该项目是作为[机器学习工程师nanodegree](https://www.udacity.com/course/machine-learning-engineer-nanodegree–nd009t)四直升机项目的一部分开发的,该模型基于项目任务中提供的代码。

利用该模型求解openai健身房的[mountaincarcontinuous-v0](https://github.com/openai/gym/wiki/MountainCarContinuous-v0)连续控制问题提供了一个特别好的学习示例,因为其二维连续状态空间(位置和速度)和一维连续动作空间(向前、向后)易于在二维可视化,有助于直观理解超参数调整。

项目开发以kaggle内核开始。此回购协议中的初始代码基于[ddpg_openai-mountaincarcontinuous-v0 version 74](https://www.kaggle.com/samhiatt/mountaincarcontinuous-v0-ddpg?scriptVersionId=16052313)。

##用法 有关用法示例和演示培训可视化输出,请参见解决MountainCarContinuous-v0.ipynb。

##学分 *[深度强化学习持续控制](https://arxiv.org/abs/1509.02971) *andre muta的[ddpg-mountaincarcontinuous-v0](https://github.com/amuta/DDPG-MountainCarContinuous-v0)repo有助于提出一些好的可视化方法,并提供一些好的超参数。看起来他使用了纳米级四旋翼机项目中的相同代码,并用它来解决山体连续性问题。他的[mountaincar.py中的plot_q方法](https://github.com/amuta/DDPG-MountainCarContinuous-v0/blob/master/MountainCar.py)特别有帮助,它展示了如何绘制q_max、q_std、q_max下的操作和策略。添加策略梯度的可视化和训练过程的动画,最终帮助我更好地理解各种hypterparemeters的问题和效果。 *感谢[eli bendersky](https://eli.thegreenplace.net/2016/drawing-animated-gifs-with-matplotlib/)对matplotlib动画的帮助。 *感谢[Joseph Long](https://joseph-long.com/writing/colorbars/)对MatPlotLib ColorBar轴放置的帮助。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Jboss LinkageError:加载程序约束冲突:解析重写的方法时   java Struts 1:如何使用表单bean设置<html:multibox/>值?   使用Fortify将字段设置为Null时的Java Null取消引用   用java对连接字符的图像进行分割   java无法使用Quarkus模拟,NullPointer异常,无法找到相关导入   html试图使iframe垫片与Java小程序上的CSS下拉菜单一起工作   java无法获取Base64。decodeBase64正常工作(Commons编解码器)   java为什么我不能通过点击打开jar文件?   java当用户第一次使用预先填充的sqlite数据库时,安卓应用程序如何添加新的列或表?   在tomcat中安装java GoDaddy SSL证书。。。没有与私钥匹配的证书   java试图实现一些伪代码、算法   java如何读取其他按钮id,避免所有转到第一个按钮   java使用单个   oop为什么Java Map不扩展集合?