ponggam神经网络参数的选择

1条回答

网友

1楼 · 发布于 2024-05-18 23:42:41

现在重复我从评论中提出的建议作为答案，以便以后其他人更容易看到这个页面（因为我不能百分之百确定这是解决方案，所以先作为评论发布）：

减少奖励的幅度，使其位于（或至少接近）[0.0,1.0]或[-1.0,1.0]区间，有助于网络更快地收敛。在

以这种方式改变奖励值（简单地将它们除以一个数，使它们位于一个较小的间隔内）并不会改变网络在理论上所能学到的东西。通过在整个网络中寻找更大的权重，网络也可以简单地学习相同的概念并获得更大的回报。在

然而，学习如此大的权重通常需要花费更多的时间。主要原因是权重通常被初始化为接近0的随机值，因此通过训练将这些值更改为大值需要花费大量时间。因为权重被初始化为较小的值（通常），而且它们离最优权重值非常远，这也意味着在到达最优权重值的过程中存在局部（而不是全局）最小值的风险会增加，而这可能会陷入困境。在

当报酬值较低时，最佳权重值的大小也可能较低。这意味着初始化为小随机值的权重更可能接近其最佳值。这将导致训练时间缩短（非正式地说，旅行的“距离”变短），并且降低了陷入局部极小值的风险。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

ponggam神经网络参数的选择

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >