在路缘石中使用张量流Huber损失我试图在一个keras模型中使用huber-loss(写DQN),但是我得到了坏的结果,我认为我做错了什么。我的is代码在下面。 model = Sequential() model.add(Dens ...2024-05-13 已阅读: n次
自定义keras回调在变量中,而不是在函数中我正在建立一个DQN代理,让它玩OpenAI健身房Atari游戏(试图复制DQN文件)。实际上,我在matplotlib中得到了度量(损失、Q值的平均值、奖励和平均奖励)。我想使用tensorboar ...2024-05-13 已阅读: n次
TensorFlow“收到了成批和未成批张量的混合,或张量与规范不兼容”我正在尝试使用TensorFlow在自定义环境中实现DQN。 我已经完成了环境类的实现,并将其集成为DQN环境的一部分。 但是我有一个错误 Received a mix of batched and ...2024-05-13 已阅读: n次
ValueError:检查输入时出错:预期密集_输入有2个维度,但得到了形状为(1,1,15)的数组我正在尝试建立一个定制的健身房环境,这样我就可以在Keras网络中使用它。但当我尝试去适应de神经网络时,有一个问题正在发生在我身上 ValueError: Error when checking i ...2024-05-13 已阅读: n次
带生成元的笛卡尔积这是链接到Cartesian product of nested dictionaries of lists 假设我有一个嵌套的dict,其中的列表表示多个配置,如: {'algorithm': [' ...2024-05-13 已阅读: n次
路缘石的政策梯度我一直在尝试用“深度Q-学习”来建立一个模型,其中我有大量的动作(2908)。在使用标准DQN取得一些有限的成功之后: (https://www.cs.toronto.edu/~vmnih/docs/ ...2024-05-13 已阅读: n次
如何构建一个成对输出1个离散值和1个连续值的DQN?我正在为一个开放的健身房环境建造一个DQN。我的观察空间只有1个离散值,但我的动作是: self.action_space = (Discrete(3), Box(-100, 100, (1,))) ...2024-05-13 已阅读: n次
Python中使用Tensorflow的Cartpole深度Q学习我知道在StackOverflow上讨论了很多类似的话题,但是我在StackOverflow和互联网上做了很多研究,我没有找到解决方案。 我试图实现经典的深度Q学习算法来解决openAI健身房的car ...2024-05-13 已阅读: n次
列车估计员()和.predict()对于小数据集来说太慢我正在尝试实现一个DQN,它在同一个模型上多次调用Estimator.train(),然后调用Estimator.predict(),每个模型都有少量的示例。但是每次调用至少需要几百毫秒到一秒钟以上, ...2024-05-13 已阅读: n次
如何在RL-DDQN中得到Q值我不知道如何得到DDQN的Q值。你知道吗 DQN是普通网络,TAR是目标网络。你知道吗 q_values = self.DQN.predict(c_states) # DQN batch pr ...2024-05-13 已阅读: n次
GCP:PYTHONPATH在“gcloud-mlengine-local-train”运行程序时搞砸了这是我的项目结构: └──myfolder └──myproject ├── __init__.py ├── tester.py ├── lea ...2024-05-13 已阅读: n次
为什么在pyTorch强化学习示例的nn.模块中返回self.head(x.view(x.size(0),1))我知道平衡杆示例需要2个输出Reinforcement Learning (DQN) Tutorial 这是self.head的输出 print ('x',self.head) x = L ...2024-05-13 已阅读: n次
dqndqn从源代码为sphinx创建rest文件。 安装 需要强氧。 http://www.stack.nl/~dimitri/doxygen/download.html 以及 pip install ...2024-05-13 已阅读: n次
chainerrl 链错误 ChaneRL是一个深度强化学习库,利用{a5},一个灵活的深度学习框架,在Python中实现了各种最先进的深度增强算法。 安装 chainerrl使用python 2.7+ ...2024-05-13 已阅读: n次
sphinxcontrib-dqndomaindqndomain是dqn的sphinx扩展。 sphinxcontrib dqndomain是dqn的sphinx扩展。 本模块提供一个指令“dqn:tree”。 它显示类似于目录树的文件列表。 d ...2024-05-13 已阅读: n次
RLkitrlkit:一个简单的强化学习库 这个项目还在进行中。即将提供更多算法和详细文档:) 当前支持的代理- 随机代理 加强(政策梯度) dqn 带基线的dqn 演员评论家 有关如何使用库的详细信息,请 ...2024-05-13 已阅读: n次
rlmodelsrlmodels:强化学习库 本计画是针对强化学习问题的一些流行优化演算法的集合。目前提供的型号是: dqn DDPG cmaes 空调 以后还会有更多的。 它与pytorch模型和openai健 ...2024-05-13 已阅读: n次
PyDRLPydrl python深度强化学习库。我们制定whl,这样您就不必重新设计它了 待办事项 代理- 随机代理 CEM代理 dqn 目标值网络的dqn 双dqn 决斗dqn 政策梯度 演员评论家 ...2024-05-13 已阅读: n次
RLDQN用于训练游戏人工智能的异步深度q学习网络。 看看它是多么容易使用: import dqn # Runing our model to train you own AI(The model will ...2024-05-13 已阅读: n次
NeodroidAgent 代理 此存储库将承载应用Neodroid平台的所有初始机器学习工作。 Neodroid是在挪威研究理事会262900资助下开发的。(https://www.forskningsradet.no/p ...2024-05-13 已阅读: n次
rlibRLIB rlib是一个小型的深度强化学习库,实现了流行的深度rl算法。每个算法都是高度模块化和可定制的,这使得这个库对于任何想在同一环境中测试不同算法性能的人来说都是一个很好的选择。rlib使用p ...2024-05-13 已阅读: n次