如何为橙色SVM训练准备文本数据?

0 投票
1 回答
2157 浏览
提问于 2025-04-17 06:30

我两年前用过NLTK分类器。现在我想学习如何用Orange的SVM进行文本分类。在Orange教程中,SVM的示例是iris.tab:

sepal length    sepal width petal length    petal width iris
c   c   c   c   d
                class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa

如果我想对文本进行分类,应该怎么准备数据?是不是像下面这样?

token     frequency     tokenlength

the        23             3
for        21             3
at         10             2

请给我一些不同的数据准备方式的例子。SVM中的token可以被视为标签吗?如果不能,那该怎么做呢?

非常感谢!

1 个回答

1

简单回答:不可以。

详细回答:这里的“标签”是指你想要处理的文档类别。比如,如果你想把文档分成两类,比如垃圾邮件(SPAM)和正常邮件(HAM),那么标签就应该是“垃圾邮件”和“正常邮件”。在表示数据时,你可以使用一些技术,比如“词袋模型”(Bag of Words),这个模型的详细信息可以在这里找到:词袋模型

如果你想了解更多信息,我推荐以下内容:

撰写回答