NLTK:用数字分数代替标签的文档分类

2024-05-28 22:52:19 发布

您现在位置:Python中文网/ 问答频道 /正文

根据一个项目,我一直在使用pythonltk和文档分类以及naivebayes分类器。我从文档中了解到,如果您的不同文档使用pos或neg作为标签(或多于2个标签),那么这种方法非常有效

我正在处理的已经被分类的文档没有标签,但是它们有一个分数,一个0到5之间的浮点。

我想做的是构建一个分类器,就像文档中的movies示例,但是它可以预测一段文本的分数,而不是标签。我相信文档中提到过这一点,但从未进一步探讨过“数字特征的概率”

我不是一个语言专家,也不是一个统计学家,所以如果有人有这样的例子,我将非常感激,如果你能与我分享。谢谢!


Tags: 项目方法文档pos文本示例分类器分类
2条回答

这是一个很晚的答案,但也许它会帮助某人。在

你要问的是回归。对于雅各布的答案,线性回归只是一种方法。不过,我同意他对scikit learn的建议。在

你要找的是线性回归,scikit learn比NLTK好得多,参见http://scikit-learn.org/stable/modules/linear_model.html

相关问题 更多 >

    热门问题