层次聚类阈值

2024-06-16 12:31:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用agglomerative hierarchical clusteringscikit-learn模块,使用contiguity constraintsward affinity获得300万个地理六网格的集群。你知道吗

我的问题与例程返回的集群数量有关。我知道沃德的亲和力使簇内方差之和最小化。当集群仅仅是一个观测值时,这是很小的最小化,对吗?这就是为什么我假设算法的起始点只是这个方差的一个随机大数,这样包括最近的连续观测值(假设在最大距离阈值内)将减少组的方差,并以这种方式继续,直到到达树的顶部。你知道吗

我的问题是返回集群标签的标准是什么。读到这篇文章,似乎最佳的簇数是由树中出现最大跳跃时给出的。但我不确定这是否是开发人员使用的标准。有人知道吗?你知道吗

理想情况下,我可以通过绘制树来进行检查,但我聚集了近300万个单元格,这使得绘制树既混乱又不可行(至少在我的计算机或集群上我可以访问)。你知道吗

谢谢


Tags: 模块标准绘制集群scikitlearn地理clustering