2024-04-26 07:53:20 发布
网友
我的目标是根据单词与文本文档语料库的相似程度对单词进行聚类。我计算了每对单词之间的相似度。换句话说,我有一个稀疏的距离矩阵。有人能告诉我任何以距离矩阵为输入的聚类算法(可能还有它的Python库)吗?我事先也不知道集群的数量。我只想把这些词聚在一起,得到哪些词聚在一起
您可以使用scikit中的大多数算法来学习预计算的距离矩阵。不幸的是,对于许多算法,您需要集群的数量。 DBSCAN是唯一一个不需要簇数并且还使用任意距离矩阵的簇。 您也可以尝试MeanShift,但这会将距离解释为坐标-这也可能有效
还有affinity propagation,但我还没有真正看到它工作得很好。但是,如果您需要多个集群,这可能会有所帮助
披露:我是一名scikit学习核心开发人员
scipy集群包可能是有用的(scipy.cluster)。在scipy.cluster.hierarchy中有层次聚类函数。但是请注意,这些需要一个压缩矩阵作为输入(距离矩阵的上三角)。希望文档页面能帮助您
建议看一下凝聚聚类
您可以使用scikit中的大多数算法来学习预计算的距离矩阵。不幸的是,对于许多算法,您需要集群的数量。 DBSCAN是唯一一个不需要簇数并且还使用任意距离矩阵的簇。 您也可以尝试MeanShift,但这会将距离解释为坐标-这也可能有效
还有affinity propagation,但我还没有真正看到它工作得很好。但是,如果您需要多个集群,这可能会有所帮助
披露:我是一名scikit学习核心开发人员
scipy集群包可能是有用的(scipy.cluster)。在scipy.cluster.hierarchy中有层次聚类函数。但是请注意,这些需要一个压缩矩阵作为输入(距离矩阵的上三角)。希望文档页面能帮助您
建议看一下凝聚聚类
相关问题 更多 >
编程相关推荐