Ray on \u train \u result回调检索事件\u id

2024-05-14 21:09:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用的是来自Ray/RLLib的APEX-DQN代理(AsyncReplayOptimizer)。你知道吗

我想用一些插曲资料 info["episode"].user_data从回调on_episode_end(info)更改on_train_result(info)中的info["result"]字典。你知道吗

有什么办法吗?因为两个回调的对象info输出非常不同。你知道吗

on_episode_end(info):给出“env”和“插曲”
on_train_result(info):给出“agent”和“result”

而来自on_train_result(info)的“结果”并没有给出太多关于事件的信息。你知道吗

我觉得奇怪的是,“结果”只给出

'result':{
      'episode_reward_max':13010.0,
      'episode_reward_min':12150.0,
      'episode_reward_mean':12580.0,
      'episode_len_mean':50.0,
      'episodes_this_iter':2,
      'episodes_total':2,
      ...
}

没有任何关于播放片段的id的信息。如果有插曲id的话,也许我可以试着把两个回调连接起来。你知道吗


Tags: info信息idontrainresultmeanend

热门问题