根据一个项目,我一直在使用pythonltk和文档分类以及naivebayes分类器。我从文档中了解到,如果您的不同文档使用pos或neg作为标签(或多于2个标签),那么这种方法非常有效
我正在处理的已经被分类的文档没有标签,但是它们有一个分数,一个0到5之间的浮点。
我想做的是构建一个分类器,就像文档中的movies示例,但是它可以预测一段文本的分数,而不是标签。我相信文档中提到过这一点,但从未进一步探讨过“数字特征的概率”
我不是一个语言专家,也不是一个统计学家,所以如果有人有这样的例子,我将非常感激,如果你能与我分享。谢谢!
Tags:
这是一个很晚的答案,但也许它会帮助某人。在
你要问的是回归。对于雅各布的答案,线性回归只是一种方法。不过,我同意他对scikit learn的建议。在
你要找的是线性回归,scikit learn比NLTK好得多,参见http://scikit-learn.org/stable/modules/linear_model.html
相关问题 更多 >
编程相关推荐