Python中的k均值：确定每个质心关联的数据

5 投票

1 回答

7130 浏览

数据工程师

提问于 2025-04-17 13:59

我一直在使用 scipy.cluster.vq.kmeans 来进行一些k均值聚类，但我在想有没有办法确定每个数据点是（假设）和哪个中心点相关联的。

显然，你可以手动去做这个，但据我所知，kmeans这个函数并没有返回这个信息？

1 个回答

在scipy.cluster.vq这个库里，有一个叫kmeans2的函数，它不仅能帮你处理数据，还能返回每个数据点的标签。

In [8]: X = scipy.randn(100, 2)

In [9]: centroids, labels = kmeans2(X, 3)

In [10]: labels
Out[10]: 
array([2, 1, 2, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 2, 2, 1, 2, 1, 2, 1, 2, 0,
       1, 0, 2, 0, 1, 2, 0, 1, 0, 1, 1, 2, 2, 2, 2, 1, 2, 1, 1, 1, 2, 0, 0,
       2, 2, 0, 1, 0, 0, 0, 2, 2, 2, 0, 0, 1, 2, 1, 0, 0, 0, 2, 1, 1, 1, 1,
       1, 0, 0, 1, 0, 1, 2, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 2, 0, 2, 2, 0,
       1, 1, 0, 1, 0, 0, 0, 2])

如果你非得用kmeans这个函数的话，你也可以用vq来获取标签：

In [17]: from scipy.cluster.vq import kmeans, vq

In [18]: codebook, distortion = kmeans(X, 3)

In [21]: code, dist = vq(X, codebook)

In [22]: code
Out[22]: 
array([1, 0, 1, 0, 2, 2, 2, 0, 1, 1, 0, 2, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1,
       2, 2, 1, 2, 0, 1, 1, 0, 2, 2, 0, 1, 0, 1, 0, 2, 1, 2, 0, 2, 1, 1, 1,
       0, 1, 2, 0, 1, 2, 2, 1, 1, 1, 2, 2, 0, 0, 2, 2, 2, 2, 1, 0, 2, 2, 2,
       0, 1, 1, 2, 1, 0, 0, 0, 0, 1, 2, 1, 2, 0, 2, 0, 2, 2, 1, 1, 1, 1, 1,
       2, 0, 2, 0, 2, 1, 1, 1])

文档链接：scipy.cluster.vq

回答于 2025-04-17 由 Python大师

分享举报

Python中的k均值：确定每个质心关联的数据

1 个回答

撰写回答