我正在用一堆SCIK训练工具来学习一堆模型。在
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(train_documents)
k = 10
model = KMeans(n_clusters=k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)
这个模型是用10个簇生成的,没有任何问题。但是当我试图预测一个文档列表时,我得到了一个错误。在
^{pr2}$错误消息:
值错误:无法将字符串转换为浮点值…
我需要使用PCA来减少特征的数量,还是需要对文本文档进行预处理?在
您需要将
test_documents
转换为与train相同的转换方式。在确保您只在测试文档上调用}相同的
transform
,并使用与火车文档上的fit()
或{vectorizer
对象。在相关问题 更多 >
编程相关推荐