代理不停地重复相同的动作循环,Q学习

2024-05-23 14:15:31 发布

您现在位置:Python中文网/ 问答频道 /正文

如何防止代理不停地重复相同的动作循环

当然,随着奖励制度的改变。但是,您是否可以遵循或尝试在代码中包含一些一般规则来防止此类问题


更准确地说,我的实际问题是:

我想教一个安用Q-Learning学习涂鸦跳跃。几代人之后,代理不断地在同一个平台/石头上不停地跳跃。这无助于增加随机探索时间的长度

我的奖励制度如下:

  • +1当代理人活着时
  • +2当代理跳上平台时
  • -它死的时候是1000

一个想法是,当代理点击与以前相同的平台时,给它负的或至少0的奖励。但要做到这一点,我必须向ANN传递许多新的输入参数:代理的x,y坐标和上次访问的平台的x,y坐标

此外,人工神经网络还必须知道平台有4块厚,以此类推

因此,我确信我刚才提到的这个想法不会解决这个问题,相反,我相信人工神经网络一般不会再学好了,因为有太多无用和复杂的输入无法理解


Tags: 代码代理参数规则时间平台learning动作
1条回答
网友
1楼 · 发布于 2024-05-23 14:15:31

这并不是对这个非常普遍的问题的直接回答


我为我的特定DoodleJump示例找到了一个解决方法,可能有人做了类似的事情,需要帮助:

  • 训练时:让特工跳上的每一个平台在那之后消失,然后在其他地方产生一个新的平台

  • 测试/演示时:您可以禁用新的“消失”功能(与以前一样),玩家将玩得很好,不会一直跳到同一个平台上

相关问题 更多 >