在强化学习中，奖赏是趋同的，但行动是不正确的

2024-06-02 08:43:26 发布

您现在位置：Python中文网/ 问答频道 /正文

1260

网友

男 | 程序猿一只，喜欢编程写python代码。

我正在开发一个强化学习代理

我的奖励结构看起来像

thermal_coefficient = -0.1

        zone_temperature = output[6]

        if zone_temperature < self.temp_sp_min:
            temp_penalty = self.temp_sp_min - zone_temperature
        elif zone_temperature > self.temp_sp_max:
            temp_penalty = zone_temperature - self.temp_sp_max
        else :
            temp_penalty = 0

我的temp_sp_min是23.7，temp_sp_max是24.5。当我基于epsilon贪心动作选择策略训练agent时，在大约10000集之后，我的奖励正在收敛，当我现在测试经过训练的agent时，agent所采取的动作没有意义，这意味着当zone_temperature小于temp_sp_min时，它正在采取一个动作，这进一步降低了区域的温度

我不明白我哪里出错了。有人能帮我吗

谢谢

Tags： self zone 代理 output min 结构 temp sp

1条回答

网友

1楼 · 发布于 2024-06-02 08:43:26

epsilon贪心算法采取不合逻辑的行为是正常的，事实上这些行为应该是探索（概率为1-epsilon的行为）

但我认为对于你的问题，你需要的是一个上下文MAB的算法，因为你的回报取决于上下文/状态（当前温度）。尝试其他在LinUCB或DQN等条件下性能更好的算法

在强化学习中，奖赏是趋同的，但行动是不正确的

相关问题更多 >

编程相关推荐

热门问题

热门文章

在强化学习中，奖赏是趋同的，但行动是不正确的

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >