这是我在convertinf
DQN将cartpole
问题的DQN加倍时运行的问题。我快弄明白了
tensor([0.1205, 0.1207, 0.1197, 0.1195, 0.1204, 0.1205, 0.1208, 0.1199, 0.1206,
0.1199, 0.1204, 0.1205, 0.1199, 0.1204, 0.1204, 0.1203, 0.1198, 0.1198,
0.1205, 0.1204, 0.1201, 0.1205, 0.1208, 0.1202, 0.1205, 0.1203, 0.1204,
0.1205, 0.1206, 0.1206, 0.1205, 0.1204, 0.1201, 0.1206, 0.1206, 0.1199,
0.1198, 0.1200, 0.1206, 0.1207, 0.1208, 0.1202, 0.1201, 0.1210, 0.1208,
0.1205, 0.1205, 0.1201, 0.1193, 0.1201, 0.1205, 0.1207, 0.1207, 0.1195,
0.1210, 0.1204, 0.1209, 0.1207, 0.1187, 0.1202, 0.1198, 0.1202])
tensor([ True, True, True, True, True, True, True, True, True, True,
True, True, True, True, True, True, False, True, True, True,
True, True, True, True, True, True, True, False, True, True,
True, True, True, True, True, True, True, True, True, True,
True, True, True, True, True, True, True, True, True, True,
True, True, True, True, True, True, True, True, True, True,
True, True, True, True])
如你们所见,这里有两个张量。
first
具有我想要的q值
但是
某些值需要更改为零,因为它是结束状态。
second
张量显示了它将是零的位置
在布尔值为false的索引处,是上张量需要为零的等效点。 我不知道该怎么做
如果上面的张量是值张量,下面的张量是决策张量,那么
此外,您还可以将它们转换为numpy数组并执行相同的操作,这样应该可以正常工作
您可以使用^{} -
torch.where(condition, x, y)
示例:
相关问题 更多 >
编程相关推荐