Nltk Sklearn Unigram+Bigram

2条回答

网友

1楼 · 编辑于 2024-05-13 08:47:42

您可以使用来自scikit-learn的CountVectorizer来生成ngram。在

演示：

import sklearn.feature_extraction.text

ngram_size = 1
train_set = ['Cristiano plays football', 'Ronaldo like football too']

vectorizer = sklearn.feature_extraction.text.CountVectorizer(ngram_range=(ngram_size,ngram_size))
vectorizer.fit(train_set) # build ngram dictionary
ngram = vectorizer.transform(train_set) # get ngram
print('ngram: {0}\n'.format(ngram))
print('ngram.shape: {0}'.format(ngram.shape))
print('vectorizer.vocabulary_: {0}'.format(vectorizer.vocabulary_))

输出：

^{pr2}$

网友

2楼 · 编辑于 2024-05-13 08:47:42

如果要继续使用NLTK warper，可以在训练分类器之前执行以下操作：

classifier._vectorizer.sort = False

编程相关推荐

相当于加密流。NET在Java 安卓中的应用？
java Android：加载片段时启动动画
java文件从指定的绝对路径上载到服务器
java是否可以自定义Spring缓存抽象所使用的序列化？
当客户端输入为无效字符串时，java从JAXWS接收空的BigDecimal
将数据库从MySQL更改为SQLite后出现Java项目错误
java PrimeFaces在datatable中自定义行编辑器
java在数组中对字符串和双类类型进行排序
图像Java：如何在GridLayout中嵌套JPanel？
java searchByEmail方法不起作用

相关问题更多 >

编程相关推荐

热门问题

热门文章

Nltk Sklearn Unigram+Bigram

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >