我正在使用agglomerative hierarchical clustering
的scikit-learn
模块,使用contiguity constraints
和ward affinity
获得300万个地理六网格的集群。你知道吗
我的问题与例程返回的集群数量有关。我知道沃德的亲和力使簇内方差之和最小化。当集群仅仅是一个观测值时,这是很小的最小化,对吗?这就是为什么我假设算法的起始点只是这个方差的一个随机大数,这样包括最近的连续观测值(假设在最大距离阈值内)将减少组的方差,并以这种方式继续,直到到达树的顶部。你知道吗
我的问题是返回集群标签的标准是什么。读到这篇文章,似乎最佳的簇数是由树中出现最大跳跃时给出的。但我不确定这是否是开发人员使用的标准。有人知道吗?你知道吗
理想情况下,我可以通过绘制树来进行检查,但我聚集了近300万个单元格,这使得绘制树既混乱又不可行(至少在我的计算机或集群上我可以访问)。你知道吗
谢谢
目前没有回答
相关问题 更多 >
编程相关推荐