我有一个名为dictionary1
的列表。我使用以下代码来获取文本的稀疏计数矩阵:
cv1 = sklearn.feature_extraction.text.CountVectorizer(stop_words=None)
cv1.fit_transform(dictionary1)
但我注意到
^{pr2}$结果是['i']
。所以“i”在我的字典中,但是CountVectorizer
忽略了它(可能某些默认设置会丢弃一个字符单词)。在documentation中,我找不到这样的选项。有人能给我指出问题吗?事实上,我想在我的分析中保留“我”,因为它可以指更多的个人语言。在
一个可行的方法是直接将词典作为词汇传递(实际上,我不知道为什么我没有这么做)。一、 e
list(set(dictionary1)-set(cv1.get_feature_names()))
然后返回[]
。在在我最初的帖子中,我应该提到
dictionary1
已经是一个唯一标记的列表。在相关问题 更多 >
编程相关推荐