我尝试在sklearnpython中使用kmeans对二维用户数据进行集群。我用肘形法(聚类数的增加不会使误差平方和显著下降的点)将正确的聚类数确定为50。在
在应用kmeans之后,我希望了解每个集群中数据点的相似性。既然我有50个集群,有没有一种方法可以得到一个数字(比如每个集群内的方差),这可以帮助我了解每个集群中的数据点有多接近。像0.8这样的数字意味着这些记录在每个簇中都有很高的方差,而0.2则意味着它们是密切相关的。在
因此,总而言之,有没有办法得到一个单一的数字来确定kmeans中的每个集群有多“好”?我们可以说善是相对的,但是让我们考虑一下,我更感兴趣的是集群内的方差,以确定一个特定的集群有多好。在
使用来自https://plot.ly/scikit-learn/plot-kmeans-silhouette-analysis/的剪影得分的代码示例
相关问题 更多 >
编程相关推荐