我使用的是来自Ray/RLLib的APEX-DQN代理(AsyncReplayOptimizer)。你知道吗
我想用一些插曲资料
info["episode"].user_data
从回调on_episode_end(info)
更改on_train_result(info)
中的info["result"]
字典。你知道吗
有什么办法吗?因为两个回调的对象info
输出非常不同。你知道吗
on_episode_end(info)
:给出“env”和“插曲”on_train_result(info)
:给出“agent”和“result”
而来自on_train_result(info)
的“结果”并没有给出太多关于事件的信息。你知道吗
我觉得奇怪的是,“结果”只给出
'result':{
'episode_reward_max':13010.0,
'episode_reward_min':12150.0,
'episode_reward_mean':12580.0,
'episode_len_mean':50.0,
'episodes_this_iter':2,
'episodes_total':2,
...
}
没有任何关于播放片段的id的信息。如果有插曲id的话,也许我可以试着把两个回调连接起来。你知道吗
问题是,结果是对不同机器上许多不同事件的摘要,因此无法访问事件信息。在on\u end call back中,您可以将度量保存到第1集自定义\u指标但是,这些将显示在结果对象中。你知道吗
https://ray.readthedocs.io/en/latest/rllib-training.html#callbacks-and-custom-metrics
相关问题 更多 >
编程相关推荐