Pythorch版本的稳定基线,强化学习算法的实现。
stable-baselines3的Python项目详细描述
稳定基线3
稳定基线3是Pythorch中强化学习算法的一组改进实现。它是Stable Baselines的下一个主要版本。在
这些算法将使研究团体和行业更容易复制、提炼和识别新的想法,并将创建良好的基线,以便在此基础上构建项目。我们希望这些工具将被用作一个基础,围绕这些基础可以添加新的想法,并作为一个工具来比较一个新的方法和现有的方法。我们还希望这些工具的简单性将允许初学者尝试更高级的工具集,而不必埋头于实现细节中。在
链接
存储库: https://github.com/DLR-RM/stable-baselines3
媒体文章: https://medium.com/@araffin/df87c4b2fc82
文件: https://stable-baselines3.readthedocs.io/en/master/
RL基线3动物园: https://github.com/DLR-RM/rl-baselines3-zoo
简单的例子
大多数库尝试遵循sklearn一样的语法来使用Gym进行强化学习算法。在
下面是一个如何在cartpole环境中培训和运行PPO的快速示例:
importgymfromstable_baselines3importPPOenv=gym.make('CartPole-v1')model=PPO('MlpPolicy',env,verbose=1)model.learn(total_timesteps=10000)obs=env.reset()foriinrange(1000):action,_states=model.predict(obs,deterministic=True)obs,reward,done,info=env.step(action)env.render()ifdone:obs=env.reset()
或者只需使用一行代码训练一个模型if the environment is registered in Gym和if the policy is registered:
^{pr2}$- 项目
标签: