汤普森抽样
thompson-sampling的Python项目详细描述
汤普森抽样
thompson为python采样多臂bandit
这个项目是对一个多武装匪徒实施汤普森抽样方法。这个项目的目标是轻松创建和维护汤普森抽样实验。
目前,该项目支持响应服从伯努利或泊松分布的实验。我们将做进一步的工作,允许在其他发行版之后进行实验,并欢迎推荐/合作。
用法
设置实验:
下面的方法将用默认的prior实例化实验。
fromthompson_sampling.bernoulliimportBernoulliExperimentexperiment=BernoulliExperiment(arms=2)
如果您想使用priors模块设置自己的priors:
fromthompson_sampling.bernoulliimportBernoulliExperimentfromthompson_sampling.priorsimportBetaPriorpr=BetaPrior()pr.add_one(mean=0.5,variance=0.2,effective_size=10,label="option1")pr.add_one(mean=0.6,variance=0.3,effective_size=30,label="option2")experiment=BernoulliExperiment(priors=pr)
开始行动:
随机选择要在多臂强盗中“拉动”的手臂:
experiment.choose_arm()
更新奖励:
通过添加奖励信息更新有关不同武器的信息:
rewards=[{"label":"option1","reward":1},{"label":"option2","reward":0}]experiment.add_rewards(rewards)
安装
PIP
pip install thompson-sampling