将概念上相似的文档聚集在一起?

2024-06-17 09:39:44 发布

您现在位置:Python中文网/ 问答频道 /正文

这更像是一个概念问题,而不是一个实际的实现,我希望有人能澄清。我的目标是:给定一组文档,我希望对它们进行聚类,以便属于同一个集群的文档具有相同的“概念”。在

据我所知,Latent Semantic Analysis让我找到术语文档矩阵的一个低阶近似值,即给定一个矩阵X,它将分解为三个矩阵的乘积,其中一个矩阵是对角矩阵∑:

SVD

现在,我将选择一个低秩近似值,即只从中选择前k个值,然后计算X'。一旦我有了这个矩阵,我必须应用一些聚类算法,最终的结果将是一组具有相似概念的聚类文档。这是应用集群的正确方法吗?我的意思是,计算X'然后在其上应用聚类,或者有其他方法遵循吗?在

另外,在我的一个有点{a2}的文章中,我被告知一个邻居的意义随着维数的增加而丢失。在这种情况下,从X'聚类这些高维数据点的理由是什么?我猜,对相似文档进行集群的需求是现实世界中的需求,在这种情况下,如何着手解决这一问题?在


Tags: 方法文档概念目标情况集群矩阵聚类
1条回答
网友
1楼 · 发布于 2024-06-17 09:39:44

对于问题的第一部分:不,您不需要再执行任何“集群”。您的singular value decomposition中已经提供了这样的集群。如果这还不清楚,请详细研究您的链接方式Latent Semantic Analysis。在

第二部分:请先找出问题的第一部分,然后在此基础上重述这部分问题。在

相关问题 更多 >