计数矢量器Scikitlearn中的特殊字符

#coding: utf-8 from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer() corpus = ['öåa hej ho' 'åter aba na', 'äs äp äl'] x = vectorizer.fit_transform(corpus) l = vectorizer.get_feature_names() for u in l: print u

4条回答

网友

1楼 · 编辑于 2024-05-16 07:08:39

这是一种有意降低维数的方法，同时使矢量器能够容忍输入，而作者并不总是使用强调字符。在

如果要禁用该功能，只需将strip_accents=None传递给CountVectorizer，如{a1}中所述。在

>>> from sklearn.feature_extraction.text import CountVectorizer
>>> CountVectorizer(strip_accents='ascii').build_analyzer()(u'\xe9t\xe9')
[u'ete']
>>> CountVectorizer(strip_accents=False).build_analyzer()(u'\xe9t\xe9')
[u'\xe9t\xe9']
>>> CountVectorizer(strip_accents=None).build_analyzer()(u'\xe9t\xe9')
[u'\xe9t\xe9']

编程相关推荐

使用Java将JSON转换为哈希映射
java如何通过使用MapStruct从源对象复制值来填充目标对象内部的映射？
注入泛型类型为@InjectGuice的类时发生java错误
字符串如何在JavaIDE中导入基本符号
在Java中将JSON转换为List<List<String>>
java Java9 HttpClient SSLHandshakeException
java jOOQ代码生成器
java如何调整图标（图像按钮），使其不会放大？
java我可以在使用Eclipse时安装2个或更多Android SDK吗
sqlite Java实现DAO

相关问题更多 >

编程相关推荐

热门问题

热门文章

计数矢量器Scikitlearn中的特殊字符

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >