如何防止代理不停地重复相同的动作循环
当然,随着奖励制度的改变。但是,您是否可以遵循或尝试在代码中包含一些一般规则来防止此类问题
更准确地说,我的实际问题是:
我想教一个安用Q-Learning学习涂鸦跳跃。几代人之后,代理不断地在同一个平台/石头上不停地跳跃。这无助于增加随机探索时间的长度
我的奖励制度如下:
一个想法是,当代理点击与以前相同的平台时,给它负的或至少0的奖励。但要做到这一点,我必须向ANN传递许多新的输入参数:代理的x,y坐标和上次访问的平台的x,y坐标
此外,人工神经网络还必须知道平台有4块厚,以此类推
因此,我确信我刚才提到的这个想法不会解决这个问题,相反,我相信人工神经网络一般不会再学好了,因为有太多无用和复杂的输入无法理解
这并不是对这个非常普遍的问题的直接回答
我为我的特定DoodleJump示例找到了一个解决方法,可能有人做了类似的事情,需要帮助:
训练时:让特工跳上的每一个平台在那之后消失,然后在其他地方产生一个新的平台
测试/演示时:您可以禁用新的“消失”功能(与以前一样),玩家将玩得很好,不会一直跳到同一个平台上
相关问题 更多 >
编程相关推荐