python中大数据集的一致性聚类

2024-06-08 01:14:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我在pythonhere中找到了一个非常好的共识集群实现

但是,对于具有大样本量的大型数据集,该算法将不起作用,因为它使用维度[samples,samples]构建矩阵

对于大型数据集上的一致性集群,是否有任何有效的python实现


Tags: 数据算法集群矩阵一致性集上samples样本量
1条回答
网友
1楼 · 发布于 2024-06-08 01:14:17

我面临着一个类似的问题,我需要在一个大数据集上进行一致性聚类,这将产生一个1000000 x 1000000一致性矩阵(希望非常稀疏祈祷)。虽然我还没有解决这个问题,但我在论文中找到了一些线索:Accelerating high-dimensional clustering with lossless data reduction他们开发了自己的无损数据缩减R算法,然后使用R包ConsensusClusterPlus。我知道这不是一个真正的答案,是用R而不是Python实现的,但希望它能像我一样为人们指明正确的方向

更新

我最终在python here中实现了this paper中描述的一致性集群算法。在一个有超过1000000个单元格和大约50个特征的数据集上,我能够在几分钟内运行诸如FastPG之类的单个聚类算法,然后将这些结果作为共识聚类算法的输入,共识聚类算法也在几分钟内运行

相关问题 更多 >

    热门问题