使用python的给定数据集的最佳kmean

from sklearn import preprocessing from sklearn.metrics import silhouette_score # normalize the data attributes normalized = preprocessing.normalize(X) #print("Normalized Data = ", normalized) Sum_of_squared_distances = [] K = range(2,15) for k in K: km = KMeans(n_clusters=k) km = km.fit(normalized) Sum_of_squared_distances.append(km.inertia_) plt.plot(K, Sum_of_squared_distances, 'bx-') plt.xlabel('Number of clusters') plt.ylabel('Sum_of_squared_distances') plt.title('Elbow Method For Optimal k') plt.show() sil = [] for k in range(2, 15): kmeans = KMeans(n_clusters = k).fit(normalized) preds = kmeans.fit_predict(normalized) sil.append(silhouette_score(normalized, preds, metric = 'euclidean')) plt.plot(range(2, 15), sil, 'bx-') plt.title('Silhouette Method For Optimal k') plt.xlabel('Number of clusters') plt.ylabel('Sil') plt.show() for i in range(len(sil)): print(str(i+2) +":"+ str(sil[i]))

1条回答

网友

1楼 · 发布于 2024-06-11 19:11:59

plt.show（）的结果是什么？难道你不应该看一看图，看看线图开始水平的k值吗？在下图中，最佳k值为5。见https://blog.cambridgespark.com/how-to-determine-the-optimal-number-of-clusters-for-k-means-clustering-14f27070048f。这也是我在大学里学习确定k值的方法

相关问题更多 >

编程相关推荐

热门问题

热门文章