带负值的OpenAiGym离散空间

2024-04-20 13:54:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经创建了一个定制的健身房环境,其中的动作可以是-100到+100之间的任意整数。据我所知,不可能创建一个允许负值的离散空间,我提供的唯一解决方案是创建一个从-100到+100的长方体空间(注意这是一个连续空间)。你知道吗

由于大多数强化学习代理都假设动作空间是离散的,因此我在运行代码时遇到了困难(我知道有些代理(如DDPG)是在连续动作空间中运行的)。你知道吗

有没有可能在健身房里有一个允许负值的离散空间?你知道吗


Tags: 代码代理环境空间整数解决方案健身房动作
1条回答
网友
1楼 · 发布于 2024-04-20 13:54:23

AFAIK,在OpenAI环境中,每个可能的操作都有索引,因此不需要负值。但是,您可以将每个操作索引映射为任意值(正数或负数)。你知道吗

例如,在Cartpole环境中,可以对cart施加正(向右推)力或负(向左推)力。这个问题是使用离散环境建模的,其中action 0 = negative forceaction 1 = positive force。有关更多详细信息,请查看Cartpole source code(例如,第95行)。你知道吗

类似地,在您的例子中,虽然您的200个动作索引都是正的,但它们可以表示正的或负的动作。你知道吗

相关问题 更多 >