将概念相似的文档进行聚类?
这个问题更像是一个概念上的讨论,而不是实际的实现,我希望有人能帮我澄清一下。我的目标是这样的:给定一组文档,我想把它们分成不同的组,使得同一组里的文档有相同的“概念”。
根据我的理解,潜在语义分析可以让我找到一个术语-文档矩阵的低秩近似。也就是说,给定一个矩阵X,它会把X分解成三个矩阵的乘积,其中一个就是对角矩阵Σ:
接下来,我会选择一个低秩近似,也就是只选择Σ中的前k个值,然后计算出X'。一旦我得到了这个矩阵,我就需要应用一些聚类算法,最终的结果就是将具有相似概念的文档分成不同的组。这是应用聚类的正确方法吗?我的意思是,先计算X',然后在这个基础上进行聚类,还是有其他的方法呢?
另外,在我之前的一个相关问题中,有人告诉我,随着维度的增加,邻居的意义会丢失。在这种情况下,为什么要对来自X'的高维数据点进行聚类呢?我猜测,聚类相似文档的需求是现实世界中的一种需求,那么,应该如何解决这个问题呢?
1 个回答
4
关于你问题的第一部分:不,你不需要再进行任何“聚类”了。这种聚类已经通过你的 奇异值分解
得到了。如果这仍然不清楚,请更详细地研究一下你提供的链接 潜在语义分析。
关于你的第二部分:请先弄清楚你问题的第一部分,然后根据这个重新表述你问题的这一部分。