我正在用NLTK和学习包装。在
classifier = SklearnClassifier(LinearSVC(), int,True)
classifier.train(train_set)
当我只使用unigrams和build featureset时,例如:
^{pr2}$一切都很好。但是当我想用搭配的时候就有一个问题。功能集看起来不同:
{ {"Cristiano" : True, "Ronaldo : True, ("Cristiano", "Ronaldo") : True }
然后我收到错误:
feature_names.sort()TypeError: unorderable types: tuple() < str()
如何使用unigrams和bigrams为nltk-sklearn包装器正确地创建特性集?在
您可以使用来自scikit-learn的CountVectorizer来生成ngram。在
演示:
输出:
^{pr2}$如果要继续使用NLTK warper,可以在训练分类器之前执行以下操作:
相关问题 更多 >
编程相关推荐