最大熵分类器

2024-04-29 09:14:42 发布

您现在位置:Python中文网/ 问答频道 /正文

这是我在stackoverflow上的第一个问题,请耐心等待。

我正在做一些语料库建设,特别是试图组成一个高棉语/英语平行句子语料库。我正在使用一些人工配对的句子来训练一个最大熵分类器,它将从我的平行文档语料库中选择更多的平行句子对。

我的问题是我很少有人注释的训练数据来训练分类器。因此,它不是一个很好的分类器。所以,我的老师建议我看一下MaxEnt分类器的原始分数,看看是否有一些分数阈值高于这个阈值,人类的判断会发现被归类为翻译的句子对实际上是彼此的翻译。

然而,我使用的是NLTK的MaxEnt分类器,我找不到一个函数,它将给我一个原始的分数,分类器用来决定是或否

NLTK的MaxEnt分类器是否具有此功能,或者没有办法找出分类器的原始分数?有没有一个包有一个更好的MaxEnt分类器,可以给你我应该使用的原始分数?

提前感谢您的帮助和建议!!


Tags: 数据文档分类器阈值老师人类stackoverflow人工