Python中使用scipy的kmeans和kmeans2聚类遇到问题

Question

我有个关于scipy的kmeans和kmeans2的问题。我有一组1700个经纬度的数据点，想把它们分成100个区域。但是，当我使用kmeans和kmeans2时，得到的结果差别很大。你能解释一下这是为什么吗？我的代码如下。

首先，我加载我的数据并绘制坐标，结果看起来都没问题。

import pandas as pd, numpy as np, matplotlib.pyplot as plt
from scipy.cluster.vq import kmeans, kmeans2, whiten

df = pd.read_csv('data.csv')
df.head()

coordinates = df.as_matrix(columns=['lon', 'lat'])
plt.figure(figsize=(10, 6), dpi=100)
plt.scatter(coordinates[:,0], coordinates[:,1], c='c', s=100)
plt.show()

接下来，我对数据进行标准化处理，然后运行kmeans()和kmeans2()。当我绘制kmeans()的中心点时，结果看起来差不多——大约有100个点，基本上代表了1700个数据点的位置。

N = len(coordinates)
w = whiten(coordinates)
k = 100
i = 20

cluster_centroids1, distortion = kmeans(w, k, iter=i)
cluster_centroids2, closest_centroids = kmeans2(w, k, iter=i)

plt.figure(figsize=(10, 6), dpi=100)
plt.scatter(cluster_centroids1[:,0], cluster_centroids1[:,1], c='r', s=100)
plt.show()

但是，当我绘制kmeans2()的中心点时，结果看起来完全不对劲。我本以为kmeans和kmeans2的结果应该差不多，但它们却完全不同。kmeans的结果似乎很好地代表了我的完整数据集，而kmeans2的结果看起来几乎是随机的。

plt.figure(figsize=(10, 6), dpi=100)
plt.scatter(cluster_centroids2[:,0], cluster_centroids2[:,1], c='r', s=100)
plt.show()

以下是我设置的k和N的值，以及kmeans()和kmeans2()得到的数组大小：

print 'k =', k
print 'N =', N
print len(cluster_centroids1)
print len(cluster_centroids2)
print len(closest_centroids)
print len(np.unique(closest_centroids))

输出：

为什么len(cluster_centroids1)不等于k？
len(closest_centroids)等于N，这看起来是对的。但为什么len(np.unique(closest_centroids))不等于k？
len(cluster_centroids2)等于k，但当绘制时，cluster_centroids2似乎并没有像cluster_centroids1那样代表原始数据集。

最后，我绘制了完整的坐标数据集，并按区域上色。

plt.figure(figsize=(10, 6), dpi=100)
plt.scatter(coordinates[:,0], coordinates[:,1], c=closest_centroids, s=100)
plt.show()

你可以在这里看到：

数据可视化 scipy kmeans 聚类算法数据标准化中心点计算经纬度数据 kmeans2

Python中使用scipy的kmeans和kmeans2聚类遇到问题

1 个回答

撰写回答