smpybandits:一个开放源码的python包,用于单玩家和多玩家多武装bandits算法。
SMPyBandits的Python项目详细描述
快速演示
smpybandits 包含互联网上最完整的单播放器(经典)bandit算法集合( 超过65! ),以及所有最先进的多播放器算法的实现
我非常积极地关注与多武装匪徒(MAB)研究相关的最新出版物,并且通常很快地实现新算法(例如,请参见exp3++, corral 和 sparseucb 都是由文章介绍的(对于exp3++,corral的 ,sparseucb的 在2017年7月colt上展示, learnexp 来了从a NIPS 2017年论文 ,以及从a KL UCB++ 到alt 2017年论文。
- 经典的mab有很多应用,包括临床试验、a/b测试、游戏树探索和在线内容推荐(我的框架没有实现contextual bandit-yet)。
- 多播放器mab 在认知无线电中有应用,我的框架实现了文献中所有的冲突模型。以及过去10年左右的所有算法(2009年起的rhorand,2015年起的mega, 音乐椅 ,以及我们最先进的算法 randtopm 和 mctopm )。
有了这个数值框架,模拟可以在单个cpu或多核机器上运行,摘要图自动保存为高质量的png、pdf和eps(准备在研究文章中使用)。做新的模拟是非常容易的,一个人只需要写一个配置脚本,基本上没有代码!请参见 这些示例(名为 configuration\uu…py的文件)。
完整的-doc.org/" rel="nofollow">sphinx 每种算法和每段代码的文档(包括配置中的常量!)可在此处获得: smpybandits.github.io
< div > 注- 我(Lilian Besson) 已经于2016年10月开始了我的博士学位,这是我自2016年12月以来正在进行的研究的一部分。
- 我在2017年3月发布了 文档 ,我在2017年用这个框架撰写了第一篇研究文章,并决定(最终)在2018年2月开放源代码我的项目。