kateli1991

使用scikit从计数数据帧开始学习tfidf矢量器



我有一个pandas数据框架,其中包含一系列文档的字数。我可以对它应用sklearn.feature_extraction.text.TfidfVectorizer以返回术语文档矩阵吗?在

import pandas as pd

a = [1,2,3,4]
b = [1,3,4,6]
c = [3,4,6,1]

df = pd.DataFrame([a,b,c])

如何获取df中计数的tfidf版本?在


已被浏览了10790次
6 日,21 小时 之前提问
1 个回答
fefe Tyson

像这样:

from sklearn.feature_extraction.text import TfidfTransformer
tfidf =TfidfTransformer(norm=u'l2', use_idf=True, smooth_idf=True, sublinear_tf=False)
data =tfidf.fit_transform(df.values)

这将返回tfidf值的稀疏矩阵。您可以将它们转换为密集的,然后将它们放回数据帧中,如下所示:

^{pr2}$
评论 - 2020年7月29日 15:41

最新Python问答

推荐Python问答