基于距离矩阵的词聚类

2024-04-26 07:53:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我的目标是根据单词与文本文档语料库的相似程度对单词进行聚类。我计算了每对单词之间的相似度。换句话说,我有一个稀疏的距离矩阵。有人能告诉我任何以距离矩阵为输入的聚类算法(可能还有它的Python库)吗?我事先也不知道集群的数量。我只想把这些词聚在一起,得到哪些词聚在一起


Tags: 算法距离目标数量集群矩阵聚类文本文档
3条回答

您可以使用scikit中的大多数算法来学习预计算的距离矩阵。不幸的是,对于许多算法,您需要集群的数量。 DBSCAN是唯一一个不需要簇数并且还使用任意距离矩阵的簇。 您也可以尝试MeanShift,但这会将距离解释为坐标-这也可能有效

还有affinity propagation,但我还没有真正看到它工作得很好。但是,如果您需要多个集群,这可能会有所帮助

披露:我是一名scikit学习核心开发人员

scipy集群包可能是有用的(scipy.cluster)。在scipy.cluster.hierarchy中有层次聚类函数。但是请注意,这些需要一个压缩矩阵作为输入(距离矩阵的上三角)。希望文档页面能帮助您

建议看一下凝聚聚类

相关问题 更多 >