现代IRL和模仿学习算法的实现。

imitation的Python项目详细描述


CircleCIDocumentation StatuscodecovPyPI version

模仿学习基线实现

该项目旨在提供模拟学习算法的干净实现。 目前我们有行为克隆的实现,DAgger(使用合成示例)、Adversarial Inverse Reinforcement Learning和{a7}。在

安装:

安装PyPI release

pip install imitation

安装最新提交

^{pr2}$

可选Mujoco依赖项:

按照说明安装mujoco_py v1.5 here。在

CLI快速启动:

我们提供了几个CLI脚本作为imitation中实现的算法的前端。它们使用Sacred进行配置和复制。在

examples/quickstart.sh:

# Train PPO agent on cartpole and collect expert demonstrations. Tensorboard logs saved in `quickstart/rl/`
python -m imitation.scripts.expert_demos with fast cartpole log_dir=quickstart/rl/

# Train GAIL from demonstrations. Tensorboard logs saved in output/ (default log directory).
python -m imitation.scripts.train_adversarial with fast gail cartpole rollout_path=quickstart/rl/rollouts/final.pkl

# Train AIRL from demonstrations. Tensorboard logs saved in output/ (default log directory).
python -m imitation.scripts.train_adversarial with fast airl cartpole rollout_path=quickstart/rl/rollouts/final.pkl

小贴士:

  • 从上面的命令中删除“fast”选项,以便完成训练运行。在
  • python -m imitation.scripts.expert_demos print_config将列出神圣的脚本选项。这些配置选项记录在每个脚本的docstring中。在

{a1}有关如何配置神圣命令行的更多信息,请参见^ 1。在

Python界面快速启动:

请参见examples/quickstart.py以获取加载CartPole-v1演示并在该数据上训练BC、GAIL和AIRL模型的示例脚本。在

BC、GAIL和air还接受任何Pytorch风格的数据加载器,它迭代包含观察、动作和next观察的字典。在

密度奖励基线

我们还实施了基于密度的奖励基准。你可以找到一个example notebook here。在

贡献

{a14}。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java类之间并发性不一致的HashMap   插件如何在JavaSwing中使用UIManager和Classloader从外部jar安装外观?   java JasperReports:找不到子报表   在项目中找不到java生成的Javadoc文件   java BigDecimal。multiply()和divide()方法返回十六进制数。为什么?   java统计出现次数并从字符串中删除重复项   调用运算符时发生java NullPointerException   Spring和Hibernate之间的java配置错误   JavaZK将用户重定向回上一页   Javasocket为传出连接指定特定的网络接口   如果拖动到某个区域外,java Make按钮操作将被取消   如何在Eclipse for selenium 3.141.59中添加Java文档链接   java从匹配条件的数组中获取所有索引   docker未连接到RemoteWebDriver的java Gitlab ci selenium测试   java重写run方法   utf 8如何使用java解码UTF8编码的字符串?   java如何从eclipse调试部署在tomcat上的web应用程序?   将字母字符与前面没有百分号的Java正则表达式匹配