我有一个非常大的数据帧。下面是示例
Id description
1 switvch for air conditioner transformer..............
2 control tfrmr...........
3 coling pad.................
4 DRLG machine
5 hair smothing kit...............
为了进一步的处理,我将使用Sckit learn的countvectorizer构造上述数据的双项矩阵
countvec = CountVectorizer()
documenttermmatrix=countvec.fit_transform( dataset['description'])
我必须纠正描述中拼写错误的特征。对于大型数据集,用拼写正确的单词替换拼写错误的单词需要花费大量时间。你知道吗
所以我想用代码给出的计数向量器中的特征列表来修正特征
features_names= countvec.get_feature_names()
是否可以使用上述列表重命名功能,并进一步将其用于分类过程???你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐