NLTK：用数字分数代替标签的文档分类 - 问答 - Python中文网

NLTK：用数字分数代替标签的文档分类

2024-05-28 22:52:19 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

根据一个项目，我一直在使用pythonltk和文档分类以及naivebayes分类器。我从文档中了解到，如果您的不同文档使用pos或neg作为标签（或多于2个标签），那么这种方法非常有效

我正在处理的已经被分类的文档没有标签，但是它们有一个分数，一个0到5之间的浮点。

我想做的是构建一个分类器，就像文档中的movies示例，但是它可以预测一段文本的分数，而不是标签。我相信文档中提到过这一点，但从未进一步探讨过“数字特征的概率”

我不是一个语言专家，也不是一个统计学家，所以如果有人有这样的例子，我将非常感激，如果你能与我分享。谢谢！

Tags：项目方法文档 pos 文本示例分类器分类

2条回答

网友

1楼 · 编辑于 2024-05-28 22:52:19

这是一个很晚的答案，但也许它会帮助某人。在

你要问的是回归。对于雅各布的答案，线性回归只是一种方法。不过，我同意他对scikit learn的建议。在

网友

2楼 · 编辑于 2024-05-28 22:52:19

你要找的是线性回归，scikit learn比NLTK好得多，参见http://scikit-learn.org/stable/modules/linear_model.html

相关问题更多 >

编程相关推荐

热门问题

热门文章