2024-06-16 13:18:36 发布
网友
我已经创建了一个定制的健身房环境,其中的动作可以是-100到+100之间的任意整数。据我所知,不可能创建一个允许负值的离散空间,我提供的唯一解决方案是创建一个从-100到+100的长方体空间(注意这是一个连续空间)。你知道吗
由于大多数强化学习代理都假设动作空间是离散的,因此我在运行代码时遇到了困难(我知道有些代理(如DDPG)是在连续动作空间中运行的)。你知道吗
有没有可能在健身房里有一个允许负值的离散空间?你知道吗
AFAIK,在OpenAI环境中,每个可能的操作都有索引,因此不需要负值。但是,您可以将每个操作索引映射为任意值(正数或负数)。你知道吗
例如,在Cartpole环境中,可以对cart施加正(向右推)力或负(向左推)力。这个问题是使用离散环境建模的,其中action 0 = negative force和action 1 = positive force。有关更多详细信息,请查看Cartpole source code(例如,第95行)。你知道吗
action 0 = negative force
action 1 = positive force
类似地,在您的例子中,虽然您的200个动作索引都是正的,但它们可以表示正的或负的动作。你知道吗
AFAIK,在OpenAI环境中,每个可能的操作都有索引,因此不需要负值。但是,您可以将每个操作索引映射为任意值(正数或负数)。你知道吗
例如,在Cartpole环境中,可以对cart施加正(向右推)力或负(向左推)力。这个问题是使用离散环境建模的,其中
action 0 = negative force
和action 1 = positive force
。有关更多详细信息,请查看Cartpole source code(例如,第95行)。你知道吗类似地,在您的例子中,虽然您的200个动作索引都是正的,但它们可以表示正的或负的动作。你知道吗
相关问题 更多 >
编程相关推荐