NLTK中的内置POS标记器对其决策是否有信心值?

2024-06-10 11:30:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用一个来自NLTK包的基本标记器。我以前使用的是OpenNLP的标签系统。我正在切换,因为NLTK有更多的预构建模块,我可以在以后的项目中使用这些模块。但是,我现在缺少的是一个“信心”价值观的标签。在

最初使用OpenNLP设置时,我得到了一个数值(从0到1),它告诉我标记者对自己的决定有多自信(0表示完全不自信,1表示完全自信)。我想知道是否有人知道NLTK的标记系统中有什么值可以类似地工作。它不一定是同一个系统,但我希望某种数字排名,让我很容易看到,如果一个给定的标签,我应该再次检查或不。在

我在NLTK中有一点与置信值类似。是标记器的总体准确度等级,但仅提供预标记源,且用于整个文档,而不是按字计算。在

我的想法是,也许有一些统计学上的决定,关于哪个标签被选为单词,如果我能得到它也许可以作为一个类似的衡量标准,但我找不到任何类似的东西。在

谢谢!在


Tags: 模块项目文档标记系统数字标签数值
1条回答
网友
1楼 · 发布于 2024-06-10 11:30:25

NLTK标记器不为每个令牌提供直接置信值,但NaiveBayes标记器允许传递一个截止概率:

tagger = ClassifierBasedPOSTagger(train=training_sentences, cutoff_prob=0.95)

如果POS标记的置信度低于95%,则标记器将返回None。我发现0.95在精确性和召回率之间是一个很好的折衷(当然这取决于应用程序的需要)。在

相关问题 更多 >