可视化数据和聚类

2 投票

5 回答

2179 浏览

提问于 2025-04-16 01:14

我现在正在写一个Python脚本，用来找出文档之间的相似度。我已经计算出了每对文档的相似度分数，并把它们存储在字典里。看起来像这样：

{(8328, 8327): 1.0, (8313, 8306): 0.12405229825691289, (8329, 8328): 1.0, (8322, 8321): 0.99999999999999989, (8328, 8329): 1.0, (8306, 8316): 0.12405229825691289, (8320, 8319): 0.67999999999999989, (8337, 8336): 1.0000000000000002, (8319, 8320): 0.67999999999999989, (8313, 8316): 0.99999999999999989, (8321, 8322): 0.99999999999999989, (8330, 8328): 1.0}

我的最终目标是把相似的文档聚集在一起。上面的数据可以用另一种方式来看。比如说文档对(8313, 8306)，它的相似度分数是0.12405。我可以说，这个分数的倒数就是文档8313和8306之间的距离。因此，相似的文档会聚得更近，而不太相似的文档则会相对远一些，基于它们的距离。

我想问的是，有没有什么开源的可视化工具可以帮助我实现这个目标？

数据聚合数据可视化信息检索开源工具相似度计算聚类分析距离度量文档相似性

5 个回答

我觉得Weka可以做到这一点。不过，你可能需要先把输入文件转换成另一种格式。Weka还有一个API，不过它是用Java写的，不是Python。

回答于 2025-04-16 由 Python大师

分享举报

我觉得你需要使用MDS。

http://en.wikipedia.org/wiki/Multidimensional_scaling

回答于 2025-04-16 由 Python大师

分享举报

我不太确定这种图的具体名称是什么（可能是最小权重生成树？），不过你可以看看 Graphviz。这个工具很不错，还有一些 Python的接口可以使用。如果没有这些接口，你也可以直接生成一个输入文件，或者把数据直接输入进去。

回答于 2025-04-16 由 Python大师

分享举报

可视化数据和聚类

5 个回答

撰写回答