Sckit-learn中CountVectorizer()的重命名功能

2024-06-10 05:57:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个非常大的数据帧。下面是示例

Id      description
1        switvch for air conditioner transformer..............
2        control tfrmr...........
3        coling pad.................
4        DRLG machine
5        hair smothing kit...............

为了进一步的处理,我将使用Sckit learn的countvectorizer构造上述数据的双项矩阵

 countvec = CountVectorizer()
 documenttermmatrix=countvec.fit_transform(  dataset['description'])

我必须纠正描述中拼写错误的特征。对于大型数据集,用拼写正确的单词替换拼写错误的单词需要花费大量时间。你知道吗

所以我想用代码给出的计数向量器中的特征列表来修正特征

features_names= countvec.get_feature_names()

是否可以使用上述列表重命名功能,并进一步将其用于分类过程???你知道吗


Tags: 数据id示例列表fornames特征description