包annotlib是一个技术库,用于模拟实际注释器的标记行为。
annotlib的Python项目详细描述
annotlib:注释器的模拟
作者:Marek Herde和Adrian Calma
简介
annotlib是一个Python包,用于在活动学习设置中模拟注释器。 使用有监督的机器学习模型来解决分类问题需要将样本分配给类标签。 然而,标记这些样本会导致成本(如工作量、时间等),因此,主动学习策略的目标是通过选择样本来降低这些成本,这些样本对于训练分类器是最有用的。在
在实际场景中,人工注释器通常负责提供类标签。 不幸的是,无法保证这些注释者的无所不知性。 因此,注释器容易出错,分别是不确定的,因此分配给样本的类标签可能是假的。 注释者的标注性能受许多因素的影响,如专业知识、经验、专注力、疲劳程度等。 此外,样品的难易程度会影响标记过程的结果。在
为了评价一种在不确定注释器设置下的主动学习策略,这些不确定的类标签 注释器必须是可用的,但是缺少由容易出错的注释器标记的可公开访问的真实世界数据集。 因此,最近发表的主动学习策略在模拟注释器上进行了评估,其中使用的模拟技术多种多样。 我们开发的annotlibPython包代表了这些技术中的一种,并实现了其他方法,这些方法模拟了不确定注释器的真实特性。 通过这种方式,我们建立了一个图书馆,简化和规范了对不确定注释者的主动学习策略的评估。在
有关详细信息,请转到documentation。在
- 项目
标签: