Python:CountVectorizer忽略一个字母单词“I”

2024-04-20 13:15:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个名为dictionary1的列表。我使用以下代码来获取文本的稀疏计数矩阵:

cv1 = sklearn.feature_extraction.text.CountVectorizer(stop_words=None)  
cv1.fit_transform(dictionary1)

但我注意到

^{pr2}$

结果是['i']。所以“i”在我的字典中,但是CountVectorizer忽略了它(可能某些默认设置会丢弃一个字符单词)。在documentation中,我找不到这样的选项。有人能给我指出问题吗?事实上,我想在我的分析中保留“我”,因为它可以指更多的个人语言。在


Tags: 代码text文本none列表矩阵sklearnfeature
1条回答
网友
1楼 · 发布于 2024-04-20 13:15:29

一个可行的方法是直接将词典作为词汇传递(实际上,我不知道为什么我没有这么做)。一、 e

cv1 = sklearn.feature_extraction.text.CountVectorizer(stop_words=[], vocabulary=dictionary1)
cv1._validate_vocabulary()

list(set(dictionary1)-set(cv1.get_feature_names()))然后返回[]。在

在我最初的帖子中,我应该提到dictionary1已经是一个唯一标记的列表。在

相关问题 更多 >