马尔可夫决策过程python库

markov-rlzoo的Python项目详细描述


啊![mdp image](https://cdn-images-1.medium.com/max/1200/1*qboz2yq5fy6ynzyvspxzw.png)

\markov:用于马尔可夫决策过程的简单python库执行以体验分布式系统的性能优势。


State
Policy Probabilities.

#### Policies:

- Greedy Policy
- e-Greedy Policy
- More to come...

#### Algorithms:

- Dynamic Programming
- Linear coming soon

#### Optimizers:

- Value/Policy Iteration
- More to come...

#### Environments:

- Gridworld (ASCII, pygame马上就要来了)
-健身房马上就要来了
-还有更多…

折扣系数=1.):




en state in env.states:
v=0
i,枚举中的操作(state.actions):
policy=state.policy[i]
next_state=action(env,state.action_args)
r=next_state.reward
v+=policy*(r+折扣系数*next_state.value)


values[state.index]=v


=argparse.argument parser()
parser.add_argument(“--k”,help=“k次迭代次数”,
type=int,默认值=1)
args=parser.parse_args()
k=args.k





欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在Gomoku javafx游戏中启用回合转换   java Akka ask onComplete呼叫两次   类实现可序列化时的java NotSerializableException   java在不同情况下使用不同的Hibernate用户类型   使用Jena库从Java中的RDF网页提取URI的xml解析   即使在将github证书添加到%java_HOME%之后,java SSLHandshakeException仍然存在异常   Android Studio Java TelephonyManager错误:非静态方法   java树的23个节点浪费了什么信息?   java如何使用JAXB读取XML文件?   java Jdbc列索引超出范围   java如何在Spring忽略基本包的情况下扫描整个类路径中的组件?   用于动态创建Swing组件的java侦听器   Java方法在嵌套类中不起作用   java在JSF中使用POST而不是GET重定向异地页面   文本向txt文件添加单词列表   java如何将复选框信息从视图发送到Thymeleaf中的控制器?   用于用户提示的java字符串输入   性能java编译器能否优化循环以尽早返回?   java为什么位集不可编辑?