下面的例子展示了如何使用sklearn20新闻组数据训练分类器。在
>>> from sklearn.feature_extraction.text import TfidfVectorizer
>>> categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space']
>>> newsgroups_train = fetch_20newsgroups(subset='train', ... categories=categories)
>>> vectorizer = TfidfVectorizer() >>> vectors = vectorizer.fit_transform(newsgroups_train.data)
>>> vectors.shape (2034, 34118)
然而,我有我自己的标记语料库,我想使用。在
在获得我自己数据的tfidfvector之后,我会像这样训练分类器吗?在
^{pr2}$回顾一下: 我怎么能用我自己的语料库来代替20个新闻组,但用的方法和这里一样? 那么,如何使用tfidf矢量化语料库来训练分类器呢?在
谢谢!在
一般来说,对于sklearn来说,流程是:
您没有提到您的数据格式,但如果它是带有一些行的csv文件,则流可以是:
一旦训练好分类器,就可以调用predict来获取新数据。 请记住,在将新数据传递给分类预测. 在
要解决来自评论的问题;在某些分类任务中使用tfidf表示的整个基本过程,您应该:
相关问题 更多 >
编程相关推荐