2024-04-25 00:30:01 发布
网友
我正在尝试使用强化学习(RL),例如Q-learning或A3C进行游戏机游戏。我没有这些游戏的源代码,所以创建一个环境可能是不可能的。对于RL来说,网络的行为需要一个奖励;我的问题是如何获得这个奖励。例如,在《光环》中,杀人应该是正奖励(+1),死亡应该是负奖励(-1)。当你得分或死亡时,屏幕上没有指示灯。如果需要,我将使用Python和Tensorflow。你知道吗
最好的办法是使用音频提示。我知道一个事实,光环播音员发出一个特定的声音时,球员死亡或得到杀死。你知道吗
如果张量流有某种方法来捕捉音频,并将其与给定的样本进行比较,这可能是一种有效的方法来检查播放器是否被杀死或死亡。你知道吗
免责声明:我以前从未使用过TensorFlow。
最好的办法是使用音频提示。我知道一个事实,光环播音员发出一个特定的声音时,球员死亡或得到杀死。你知道吗
如果张量流有某种方法来捕捉音频,并将其与给定的样本进行比较,这可能是一种有效的方法来检查播放器是否被杀死或死亡。你知道吗
免责声明:我以前从未使用过TensorFlow。
相关问题 更多 >
编程相关推荐