使用sklearn中的轮廓得分对k-means算法进行高效评估

4条回答

网友

1楼 · 编辑于 2024-05-17 01:00:48

kmeans收敛到局部极小值。起始位置对簇的最佳数目起着至关重要的作用。通常使用PCA或任何其他降维技术来处理kmeans来降低噪声和维数是一个好主意。

只是为了完整起见。通过“围绕medods划分”来获得最佳簇数可能是一个好主意。它相当于使用轮廓法。

奇怪的观察结果的原因可能是不同大小样本的起点不同。

综上所述，评估现有数据集的可聚类性是很重要的。可处理的平均数是由这里讨论的最坏配对比Clusterability。

网友

2楼 · 编辑于 2024-05-17 01:00:48

其他指标

肘部法：计算每个K的解释方差百分比，然后选择曲线图开始平缓的K。（这里有一个很好的描述https://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set）。显然，如果你有k==数据点的数量，你可以解释100%的方差。问题是，解释的方差改进从哪里开始趋于平稳。
信息论：如果你能计算出一个给定K的可能性，那么你可以使用AIC，AICc，或BIC（或任何其他信息论方法）。E、对于AICc，它只是平衡了当你增加K时可能性的增加和你需要的参数数量的增加。实际上，你所要做的就是选择最小化AICc的K。
通过运行其他方法（比如DBSCAN），您可能会对大致合适的K有一种感觉，这些方法可以为您提供集群数量的估计值。虽然我还没有看到用这种方法来估计K，而且像这样依赖它可能是不可取的。但是，如果DBSCAN在这里也给了您少量的集群，那么您的数据可能有一些您可能不欣赏的地方（即，没有您期望的集群那么多）。

取样量

看起来你已经从你的情节中回答了这个问题：无论你的样本是什么，你在剪影得分中得到的模式都是一样的。因此，这种模式对抽样假设似乎非常稳健。

网友

3楼 · 编辑于 2024-05-17 01:00:48

其他指标

肘部法：计算每个K的解释方差百分比，然后选择曲线图开始平缓的K。（这里有一个很好的描述https://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set）。显然，如果你有k==数据点的数量，你可以解释100%的方差。问题是，解释的方差改进从哪里开始趋于平稳。
信息论：如果你能计算出一个给定K的可能性，那么你可以使用AIC，AICc，或BIC（或任何其他信息论方法）。E、对于AICc，它只是平衡了当你增加K时可能性的增加和你需要的参数数量的增加。实际上，你所要做的就是选择最小化AICc的K。
通过运行其他方法（比如DBSCAN），您可能会对大致合适的K有一种感觉，这些方法可以为您提供集群数量的估计值。虽然我还没有看到用这种方法来估计K，而且像这样依赖它可能是不可取的。但是，如果DBSCAN在这里也给了您少量的集群，那么您的数据可能有一些您可能不欣赏的地方（即，没有您期望的集群那么多）。

取样量

看起来你已经从你的情节中回答了这个问题：无论你的样本是什么，你在剪影得分上得到的模式都是一样的。因此，这种模式对抽样假设似乎非常稳健。