如何使用TfIdfVectorizer使用SciKitLearn对文档进行分类？

>>> from sklearn.feature_extraction.text import TfidfVectorizer >>> categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space'] >>> newsgroups_train = fetch_20newsgroups(subset='train', ... categories=categories) >>> vectorizer = TfidfVectorizer() >>> vectors = vectorizer.fit_transform(newsgroups_train.data) >>> vectors.shape (2034, 34118)

2条回答

网友

1楼 · 编辑于 2024-05-15 12:20:07

一般来说，对于sklearn来说，流程是：

使用某些矢量器（例如TfIDF、count etcs）将字符串数据转换为数值
拟合和变换
把它传给你选择的分类器。在

您没有提到您的数据格式，但如果它是带有一些行的csv文件，则流可以是：

阅读每一行文本
预处理，如删除停止语等
原始数据列表=[行1，行2，行…]
向量器=TfidfVectorizer（）
x_已转换=vectorizer.fit_变换（原始数据表）
变换后的x_可以传递给分类器的fit/train函数。在

一旦训练好分类器，就可以调用predict来获取新数据。请记住，在将新数据传递给分类预测. 在

网友

2楼 · 编辑于 2024-05-15 12:20:07

要解决来自评论的问题；在某些分类任务中使用tfidf表示的整个基本过程，您应该：

将矢量器拟合到训练数据中，并将其保存在某个变量中，将其称为tfidf
您通过数据转换训练数据（没有标签，只有文本）tfidf.transform（…）
您使用_分类器.fit（数据、标签），其中标签与数据中的文档顺序相同
在测试期间，您使用tfidf.transform( ... ) 在新数据上，检查模型的预测

相关问题更多 >

编程相关推荐

热门问题

热门文章