scikitkmeans用jaccard distan对文本进行聚类

2024-03-29 06:58:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用sklearn将一些tweet作为字典进行分类 我有25个初始质心id(tweet id) 我在自己的函数中编写了它,但是我不知道如何用sklearn实现它

# {845512:'tweet id 845512', 543115:'tweet id 543115', ...}
# initial_centroids = [845512, 546318, 84632, ...] - 25 centroids

NOTE: tweets_vec <= I need to make it by jaccard_distance
tweets_vec = Is the jaccard distance matrix (it may be wrong, i dont know)

kmeans = KMeans(n_clusters=25, init=initial_seeds).fit(tweets_vec)

我做了一个二维矩阵,其中有jaccard距离。我不知道如何在kmeans方法中修复init。这是错误,这不是错误

我到底应该传递什么呢?你知道吗


Tags: id字典init错误分类itsklearntweets
1条回答
网友
1楼 · 发布于 2024-03-29 06:58:23

如果在kmeans中传递init=initial_centroids,那么initial_centroids必须具有形状clusters x features。如果只使用一个功能,则可能需要重新调整阵列的形状,请尝试:

init_cent_array = np.asarray(initial_centroids).reshape(-1,len(initial_centroids))

并将其作为kmeans中的init参数传递。希望这有帮助。你知道吗

相关问题 更多 >