sklearn集群:确定大型数据集上最佳集群数的最快方法

2024-04-26 14:59:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用python中sklearn的KMeanssilhouette_score来计算我的集群,但是在>;10.000个具有>;1000个集群的示例上计算架构得分非常慢。

  1. 有没有一种更快的方法来确定最佳簇数?
  2. 还是应该更改聚类算法?如果是,对于具有>;300.000个样本和大量群集的数据集,哪种算法是最好的(也是最快的)算法?

Tags: 数据方法gt算法示例架构集群聚类
2条回答

剪影得分,而更吸引人的措施之一,iw O(n^2)。这意味着,计算分数比计算k-means聚类要昂贵得多!

此外,这些分数只是试探性的。它们无论如何都不会产生“最优”的组合。他们只给出了一个关于如何选择k的提示,但通常你会发现其他k更好!所以不要盲目相信这些分数。

最常用的求聚类数的方法是肘曲线法。但它需要您多次运行KMeans算法来绘制图形。https://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_setwiki页面提到了一些确定集群数量的常用方法。

相关问题 更多 >