如何为橙色SVM训练准备文本数据?
我两年前用过NLTK分类器。现在我想学习如何用Orange的SVM进行文本分类。在Orange教程中,SVM的示例是iris.tab:
sepal length sepal width petal length petal width iris
c c c c d
class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-setosa
如果我想对文本进行分类,应该怎么准备数据?是不是像下面这样?
token frequency tokenlength
the 23 3
for 21 3
at 10 2
请给我一些不同的数据准备方式的例子。SVM中的token可以被视为标签吗?如果不能,那该怎么做呢?
非常感谢!
1 个回答
1
简单回答:不可以。
详细回答:这里的“标签”是指你想要处理的文档类别。比如,如果你想把文档分成两类,比如垃圾邮件(SPAM)和正常邮件(HAM),那么标签就应该是“垃圾邮件”和“正常邮件”。在表示数据时,你可以使用一些技术,比如“词袋模型”(Bag of Words),这个模型的详细信息可以在这里找到:词袋模型。
如果你想了解更多信息,我推荐以下内容: