将概念相似的文档进行聚类？

6 投票

1 回答

1264 浏览

提问于 2025-04-16 21:03

这个问题更像是一个概念上的讨论，而不是实际的实现，我希望有人能帮我澄清一下。我的目标是这样的：给定一组文档，我想把它们分成不同的组，使得同一组里的文档有相同的“概念”。

根据我的理解，潜在语义分析可以让我找到一个术语-文档矩阵的低秩近似。也就是说，给定一个矩阵X，它会把X分解成三个矩阵的乘积，其中一个就是对角矩阵Σ：

SVD

接下来，我会选择一个低秩近似，也就是只选择Σ中的前k个值，然后计算出X'。一旦我得到了这个矩阵，我就需要应用一些聚类算法，最终的结果就是将具有相似概念的文档分成不同的组。这是应用聚类的正确方法吗？我的意思是，先计算X'，然后在这个基础上进行聚类，还是有其他的方法呢？

另外，在我之前的一个相关问题中，有人告诉我，随着维度的增加，邻居的意义会丢失。在这种情况下，为什么要对来自X'的高维数据点进行聚类呢？我猜测，聚类相似文档的需求是现实世界中的一种需求，那么，应该如何解决这个问题呢？

矩阵分解聚类低秩近似聚类算法潜在语义分析文档相似性高维数据概念建模

1 个回答

关于你问题的第一部分：不，你不需要再进行任何“聚类”了。这种聚类已经通过你的 奇异值分解 得到了。如果这仍然不清楚，请更详细地研究一下你提供的链接潜在语义分析。

关于你的第二部分：请先弄清楚你问题的第一部分，然后根据这个重新表述你问题的这一部分。

回答于 2025-04-16 由 Python大师

分享举报