计数矢量器Scikitlearn中的特殊字符

2024-05-16 07:08:39 发布

您现在位置:Python中文网/ 问答频道 /正文

考虑以下可运行的示例:

#coding: utf-8
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
corpus = ['öåa hej ho' 'åter aba na', 'äs äp äl']
x = vectorizer.fit_transform(corpus)
l =  vectorizer.get_feature_names()

for u in l:
        print u

输出将是

^{pr2}$

为什么要把åäö?请注意,矢量器条带_accents=None是默认值。如果你能帮我做这件事,我将非常感激。在


Tags: textfromimport示例corpussklearnfeatureutf
4条回答

这是一种有意降低维数的方法,同时使矢量器能够容忍输入,而作者并不总是使用强调字符。在

如果要禁用该功能,只需将strip_accents=None传递给CountVectorizer,如{a1}中所述。在

>>> from sklearn.feature_extraction.text import CountVectorizer
>>> CountVectorizer(strip_accents='ascii').build_analyzer()(u'\xe9t\xe9')
[u'ete']
>>> CountVectorizer(strip_accents=False).build_analyzer()(u'\xe9t\xe9')
[u'\xe9t\xe9']
>>> CountVectorizer(strip_accents=None).build_analyzer()(u'\xe9t\xe9')
[u'\xe9t\xe9']

相关问题 更多 >