sklearn集群：确定大型数据集上最佳集群数的最快方法 - 问答 - Python中文网

sklearn集群：确定大型数据集上最佳集群数的最快方法

2024-04-26 14:59:55 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我使用python中sklearn的KMeans和silhouette_score来计算我的集群，但是在>；10.000个具有>；1000个集群的示例上计算架构得分非常慢。

有没有一种更快的方法来确定最佳簇数？
还是应该更改聚类算法？如果是，对于具有>；300.000个样本和大量群集的数据集，哪种算法是最好的（也是最快的）算法？

Tags：数据方法 gt 算法示例架构集群聚类

2条回答

网友

1楼 · 编辑于 2024-04-26 14:59:55

剪影得分，而更吸引人的措施之一，iw O（n^2）。这意味着，计算分数比计算k-means聚类要昂贵得多！

此外，这些分数只是试探性的。它们无论如何都不会产生“最优”的组合。他们只给出了一个关于如何选择k的提示，但通常你会发现其他k更好！所以不要盲目相信这些分数。

网友

2楼 · 编辑于 2024-04-26 14:59:55

最常用的求聚类数的方法是肘曲线法。但它需要您多次运行KMeans算法来绘制图形。https://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_setwiki页面提到了一些确定集群数量的常用方法。

相关问题更多 >

编程相关推荐

热门问题

热门文章