Python:CountVectorizer忽略一个字母单词“I”

2024-04-20 13:15:29 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个名为dictionary1的列表。我使用以下代码来获取文本的稀疏计数矩阵：

cv1 = sklearn.feature_extraction.text.CountVectorizer(stop_words=None)  
cv1.fit_transform(dictionary1)

但我注意到

^{pr2}$

结果是['i']。所以“i”在我的字典中，但是CountVectorizer忽略了它（可能某些默认设置会丢弃一个字符单词）。在documentation中，我找不到这样的选项。有人能给我指出问题吗？事实上，我想在我的分析中保留“我”，因为它可以指更多的个人语言。在

Tags：代码 text 文本 none 列表矩阵 sklearn feature

1条回答

网友

1楼 · 发布于 2024-04-20 13:15:29

一个可行的方法是直接将词典作为词汇传递（实际上，我不知道为什么我没有这么做）。一、 e

cv1 = sklearn.feature_extraction.text.CountVectorizer(stop_words=[], vocabulary=dictionary1)
cv1._validate_vocabulary()

list(set(dictionary1)-set(cv1.get_feature_names()))然后返回[]。在

在我最初的帖子中，我应该提到dictionary1已经是一个唯一标记的列表。在