Python stable-baselines3包_程序模块 - PyPI

Pythorch版本的稳定基线，强化学习算法的实现。

stable-baselines3的Python项目详细描述

稳定基线3

稳定基线3是Pythorch中强化学习算法的一组改进实现。它是Stable Baselines的下一个主要版本。在

这些算法将使研究团体和行业更容易复制、提炼和识别新的想法，并将创建良好的基线，以便在此基础上构建项目。我们希望这些工具将被用作一个基础，围绕这些基础可以添加新的想法，并作为一个工具来比较一个新的方法和现有的方法。我们还希望这些工具的简单性将允许初学者尝试更高级的工具集，而不必埋头于实现细节中。在

链接

存储库： https://github.com/DLR-RM/stable-baselines3

媒体文章： https://medium.com/@araffin/df87c4b2fc82

文件： https://stable-baselines3.readthedocs.io/en/master/

RL基线3动物园： https://github.com/DLR-RM/rl-baselines3-zoo

简单的例子

大多数库尝试遵循sklearn一样的语法来使用Gym进行强化学习算法。在

下面是一个如何在cartpole环境中培训和运行PPO的快速示例：

importgymfromstable_baselines3importPPOenv=gym.make('CartPole-v1')model=PPO('MlpPolicy',env,verbose=1)model.learn(total_timesteps=10000)obs=env.reset()foriinrange(1000):action,_states=model.predict(obs,deterministic=True)obs,reward,done,info=env.step(action)env.render()ifdone:obs=env.reset()

或者只需使用一行代码训练一个模型if the environment is registered in Gym和if the policy is registered：

^{pr2}$

欢迎加入QQ群-->： 979659372

stable-baselines3 0.10.0

stable-baselines3的Python项目详细描述

稳定基线3

链接

简单的例子

推荐PyPI第三方库

django-openid-whitelist

django-fujita

exofrills

sm4

pyprocs

odoo10-addon-hr-language

suds-jurko

python-demo

fpstimer

more.chameleon

eno

django-sentrylogs

folder-syncer

django-selecmat

django-library-restful

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

stable-baselines3 0.10.0

stable-baselines3的Python项目详细描述

稳定基线3

链接

简单的例子

推荐PyPI第三方库

django-openid-whitelist

django-fujita

exofrills

sm4

pyprocs

odoo10-addon-hr-language

suds-jurko

python-demo

fpstimer

more.chameleon

eno

django-sentrylogs

folder-syncer

django-selecmat

django-library-restful

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签