Python ddpg-agent包_程序模块 - PyPI

基于深度确定性策略梯度（ddpg）的强化学习模型

ddpg-agent的Python项目详细描述

#DDPG U代理使用深度确定性策略梯度（ddpg）的强化学习代理。

该强化学习模型是[udacity的ddpg模型]（https://github.com/udacity/deep-reinforcement-learning/tree/master/ddpg-pendulum）的一个改进版本，它是基于论文[continuous control with deep reinforcement learning]（https://arxiv.org/abs/1509.02971）提出的。该项目是作为[机器学习工程师nanodegree]（https://www.udacity.com/course/machine-learning-engineer-nanodegree–nd009t）四直升机项目的一部分开发的，该模型基于项目任务中提供的代码。

利用该模型求解openai健身房的[mountaincarcontinuous-v0]（https://github.com/openai/gym/wiki/MountainCarContinuous-v0）连续控制问题提供了一个特别好的学习示例，因为其二维连续状态空间（位置和速度）和一维连续动作空间（向前、向后）易于在二维可视化，有助于直观理解超参数调整。

项目开发以kaggle内核开始。此回购协议中的初始代码基于[ddpg_openai-mountaincarcontinuous-v0 version 74]（https://www.kaggle.com/samhiatt/mountaincarcontinuous-v0-ddpg?scriptVersionId=16052313）。

##用法有关用法示例和演示培训可视化输出，请参见解决MountainCarContinuous-v0.ipynb。

##学分 *[深度强化学习持续控制]（https://arxiv.org/abs/1509.02971） *andre muta的[ddpg-mountaincarcontinuous-v0]（https://github.com/amuta/DDPG-MountainCarContinuous-v0）repo有助于提出一些好的可视化方法，并提供一些好的超参数。看起来他使用了纳米级四旋翼机项目中的相同代码，并用它来解决山体连续性问题。他的[mountaincar.py中的plot_q方法]（https://github.com/amuta/DDPG-MountainCarContinuous-v0/blob/master/MountainCar.py）特别有帮助，它展示了如何绘制q_max、q_std、q_max下的操作和策略。添加策略梯度的可视化和训练过程的动画，最终帮助我更好地理解各种hypterparemeters的问题和效果。 *感谢[eli bendersky]（https://eli.thegreenplace.net/2016/drawing-animated-gifs-with-matplotlib/）对matplotlib动画的帮助。 *感谢[Joseph Long]（https://joseph-long.com/writing/colorbars/）对MatPlotLib ColorBar轴放置的帮助。

欢迎加入QQ群-->： 979659372

ddpg-agent 0.0.3

ddpg-agent的Python项目详细描述

推荐PyPI第三方库

dome

bqLie

NextFreeFileName

GjertsenTweet

noun-phrase-ua

neutronp

wlab

webkin

pygubu

django-simple-invoice

Flask-JSONSchema-Ext

octokit.p

link_preview

confgen

nnisgf

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

ddpg-agent 0.0.3

ddpg-agent的Python项目详细描述

推荐PyPI第三方库

dome

bqLie

NextFreeFileName

GjertsenTweet

noun-phrase-ua

neutronp

wlab

webkin

pygubu

django-simple-invoice

Flask-JSONSchema-Ext

octokit.p

link_preview

confgen

nnisgf

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签