在scikitlearn kmeans clus中预测文档时发生值错误

2024-04-19 14:18:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在用一堆SCIK训练工具来学习一堆模型。在

vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(train_documents)
k = 10
model = KMeans(n_clusters=k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)

这个模型是用10个簇生成的,没有任何问题。但是当我试图预测一个文档列表时,我得到了一个错误。在

^{pr2}$

错误消息:

值错误:无法将字符串转换为浮点值…

我需要使用PCA来减少特征的数量,还是需要对文本文档进行预处理?在


Tags: 工具模型modelenglishinit错误transformtrain
1条回答
网友
1楼 · 发布于 2024-04-19 14:18:23

您需要将test_documents转换为与train相同的转换方式。在

X_test = vectorizer.transform(test_documents)
predicted_cluster = model.predict(X_test)

确保您只在测试文档上调用transform,并使用与火车文档上的fit()或{}相同的vectorizer对象。在

相关问题 更多 >