考虑以下可运行的示例:
#coding: utf-8
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
corpus = ['öåa hej ho' 'åter aba na', 'äs äp äl']
x = vectorizer.fit_transform(corpus)
l = vectorizer.get_feature_names()
for u in l:
print u
输出将是
^{pr2}$为什么要把åäö?请注意,矢量器条带_accents=None是默认值。如果你能帮我做这件事,我将非常感激。在
这是一种有意降低维数的方法,同时使矢量器能够容忍输入,而作者并不总是使用强调字符。在
如果要禁用该功能,只需将
strip_accents=None
传递给CountVectorizer
,如{a1}中所述。在相关问题 更多 >
编程相关推荐