这是我在stackoverflow上的第一个问题,请耐心等待。
我正在做一些语料库建设,特别是试图组成一个高棉语/英语平行句子语料库。我正在使用一些人工配对的句子来训练一个最大熵分类器,它将从我的平行文档语料库中选择更多的平行句子对。
我的问题是我很少有人注释的训练数据来训练分类器。因此,它不是一个很好的分类器。所以,我的老师建议我看一下MaxEnt分类器的原始分数,看看是否有一些分数阈值高于这个阈值,人类的判断会发现被归类为翻译的句子对实际上是彼此的翻译。
然而,我使用的是NLTK的MaxEnt分类器,我找不到一个函数,它将给我一个原始的分数,分类器用来决定是或否
NLTK的MaxEnt分类器是否具有此功能,或者没有办法找出分类器的原始分数?有没有一个包有一个更好的MaxEnt分类器,可以给你我应该使用的原始分数?
提前感谢您的帮助和建议!!
目前没有回答
相关问题 更多 >
编程相关推荐