代理不停地重复相同的动作循环，Q学习

2024-05-23 14:15:31 发布

男 | 程序猿一只，喜欢编程写python代码。

如何防止代理不停地重复相同的动作循环

当然，随着奖励制度的改变。但是，您是否可以遵循或尝试在代码中包含一些一般规则来防止此类问题

更准确地说，我的实际问题是：

我想教一个安用Q-Learning学习涂鸦跳跃。几代人之后，代理不断地在同一个平台/石头上不停地跳跃。这无助于增加随机探索时间的长度

我的奖励制度如下：

一个想法是，当代理点击与以前相同的平台时，给它负的或至少0的奖励。但要做到这一点，我必须向ANN传递许多新的输入参数：代理的x，y坐标和上次访问的平台的x，y坐标

此外，人工神经网络还必须知道平台有4块厚，以此类推

因此，我确信我刚才提到的这个想法不会解决这个问题，相反，我相信人工神经网络一般不会再学好了，因为有太多无用和复杂的输入无法理解

Tags：代码代理参数规则时间平台 learning 动作

1条回答

网友

1楼 · 发布于 2024-05-23 14:15:31

这并不是对这个非常普遍的问题的直接回答

我为我的特定DoodleJump示例找到了一个解决方法，可能有人做了类似的事情，需要帮助：