我使用keras来构建一个DQN,并用一个具有经验回放内存的经典DQN算法训练它。因为在dqn你需要打电话模型.拟合很多次,这意味着每次从重播内存中采样批数据时,每次使用keras'model.fit( .... callbacks=TensorBoard(...))
时,都会生成新的事件日志文件。它产生了两个问题,首先它生成了太多太多的事件日志文件,减慢了训练的速度,而且在Tensorboard中你看不到任何趋势,例如损失的逐渐减少。在
在强化学习,特别是DQN的实施过程中,如何可视化训练过程,如观察梯度和激活的变化?在
Tags:
您可以通过TensorFlow:
相关问题 更多 >
编程相关推荐