层次聚类阈值

2024-06-16 12:31:26 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在使用agglomerative hierarchical clustering的scikit-learn模块，使用contiguity constraints和ward affinity获得300万个地理六网格的集群。你知道吗

我的问题与例程返回的集群数量有关。我知道沃德的亲和力使簇内方差之和最小化。当集群仅仅是一个观测值时，这是很小的最小化，对吗？这就是为什么我假设算法的起始点只是这个方差的一个随机大数，这样包括最近的连续观测值（假设在最大距离阈值内）将减少组的方差，并以这种方式继续，直到到达树的顶部。你知道吗

我的问题是返回集群标签的标准是什么。读到这篇文章，似乎最佳的簇数是由树中出现最大跳跃时给出的。但我不确定这是否是开发人员使用的标准。有人知道吗？你知道吗

理想情况下，我可以通过绘制树来进行检查，但我聚集了近300万个单元格，这使得绘制树既混乱又不可行（至少在我的计算机或集群上我可以访问）。你知道吗

谢谢

Tags：模块标准绘制集群 scikit learn 地理 clustering

0条回答

目前没有回答