基于深度确定性策略梯度(ddpg)的强化学习模型
ddpg-agent的Python项目详细描述
#DDPG U代理 使用深度确定性策略梯度(ddpg)的强化学习代理。
该强化学习模型是[udacity的ddpg模型](https://github.com/udacity/deep-reinforcement-learning/tree/master/ddpg-pendulum)的一个改进版本,它是基于论文[continuous control with deep reinforcement learning](https://arxiv.org/abs/1509.02971)提出的。该项目是作为[机器学习工程师nanodegree](https://www.udacity.com/course/machine-learning-engineer-nanodegree–nd009t)四直升机项目的一部分开发的,该模型基于项目任务中提供的代码。
利用该模型求解openai健身房的[mountaincarcontinuous-v0](https://github.com/openai/gym/wiki/MountainCarContinuous-v0)连续控制问题提供了一个特别好的学习示例,因为其二维连续状态空间(位置和速度)和一维连续动作空间(向前、向后)易于在二维可视化,有助于直观理解超参数调整。
项目开发以kaggle内核开始。此回购协议中的初始代码基于[ddpg_openai-mountaincarcontinuous-v0 version 74](https://www.kaggle.com/samhiatt/mountaincarcontinuous-v0-ddpg?scriptVersionId=16052313)。
##用法 有关用法示例和演示培训可视化输出,请参见解决MountainCarContinuous-v0.ipynb。
##学分 *[深度强化学习持续控制](https://arxiv.org/abs/1509.02971) *andre muta的[ddpg-mountaincarcontinuous-v0](https://github.com/amuta/DDPG-MountainCarContinuous-v0)repo有助于提出一些好的可视化方法,并提供一些好的超参数。看起来他使用了纳米级四旋翼机项目中的相同代码,并用它来解决山体连续性问题。他的[mountaincar.py中的plot_q方法](https://github.com/amuta/DDPG-MountainCarContinuous-v0/blob/master/MountainCar.py)特别有帮助,它展示了如何绘制q_max、q_std、q_max下的操作和策略。添加策略梯度的可视化和训练过程的动画,最终帮助我更好地理解各种hypterparemeters的问题和效果。 *感谢[eli bendersky](https://eli.thegreenplace.net/2016/drawing-animated-gifs-with-matplotlib/)对matplotlib动画的帮助。 *感谢[Joseph Long](https://joseph-long.com/writing/colorbars/)对MatPlotLib ColorBar轴放置的帮助。