Pythorch版本的稳定基线,强化学习算法的实现。

stable-baselines3的Python项目详细描述


稳定基线3

稳定基线3是Pythorch中强化学习算法的一组改进实现。它是Stable Baselines的下一个主要版本。在

这些算法将使研究团体和行业更容易复制、提炼和识别新的想法,并将创建良好的基线,以便在此基础上构建项目。我们希望这些工具将被用作一个基础,围绕这些基础可以添加新的想法,并作为一个工具来比较一个新的方法和现有的方法。我们还希望这些工具的简单性将允许初学者尝试更高级的工具集,而不必埋头于实现细节中。在

链接

存储库: https://github.com/DLR-RM/stable-baselines3

媒体文章: https://medium.com/@araffin/df87c4b2fc82

文件: https://stable-baselines3.readthedocs.io/en/master/

RL基线3动物园: https://github.com/DLR-RM/rl-baselines3-zoo

简单的例子

大多数库尝试遵循sklearn一样的语法来使用Gym进行强化学习算法。在

下面是一个如何在cartpole环境中培训和运行PPO的快速示例:

importgymfromstable_baselines3importPPOenv=gym.make('CartPole-v1')model=PPO('MlpPolicy',env,verbose=1)model.learn(total_timesteps=10000)obs=env.reset()foriinrange(1000):action,_states=model.predict(obs,deterministic=True)obs,reward,done,info=env.step(action)env.render()ifdone:obs=env.reset()

或者只需使用一行代码训练一个模型if the environment is registered in Gym和if the policy is registered

^{pr2}$

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
具有较旧spring启动版本的java Maven依赖项   java如何在安卓中获取移动网络活动计划使用历史记录   java CXF抛出了所有策略替代方案都无法满足的问题   java如何创建类似ApachePOI的程序   Java Hashmap如何处理单词网格中的键冲突   java如何在多个下拉列表中搜索下一个元素   如何将css文件导入我的JavaSpringWebApp?   如何在Java中将字符串[]转换为字符串[]?   排序如何在Java中根据列的组合对spark dataframe进行排序?   java错误:无法访问com的zzbej类文件。谷歌。安卓gms。内部的没有找到zzbej   illegalargumentexception Java Comparator引发非法参数异常   java删除ShaperRenderer偏移量   安卓中的java出生日期问题   设置MediaBrowserService和MediaSession时遇到java问题   java对抛出声明的澄清   java在IntelliJ IDEA的Gradle项目的“提供”范围内添加依赖项   带2个变量的java For循环?   java是一个更平坦的问题   使用JACOB保存Word文档(Java)