可视化数据和聚类

2 投票
5 回答
2179 浏览
提问于 2025-04-16 01:14

我现在正在写一个Python脚本,用来找出文档之间的相似度。我已经计算出了每对文档的相似度分数,并把它们存储在字典里。看起来像这样:

{(8328, 8327): 1.0, (8313, 8306): 0.12405229825691289, (8329, 8328): 1.0, (8322, 8321): 0.99999999999999989, (8328, 8329): 1.0, (8306, 8316): 0.12405229825691289, (8320, 8319): 0.67999999999999989, (8337, 8336): 1.0000000000000002, (8319, 8320): 0.67999999999999989, (8313, 8316): 0.99999999999999989, (8321, 8322): 0.99999999999999989, (8330, 8328): 1.0}

我的最终目标是把相似的文档聚集在一起。上面的数据可以用另一种方式来看。比如说文档对(8313, 8306),它的相似度分数是0.12405。我可以说,这个分数的倒数就是文档8313和8306之间的距离。因此,相似的文档会聚得更近,而不太相似的文档则会相对远一些,基于它们的距离。

我想问的是,有没有什么开源的可视化工具可以帮助我实现这个目标?

5 个回答

0

我觉得Weka可以做到这一点。不过,你可能需要先把输入文件转换成另一种格式。Weka还有一个API,不过它是用Java写的,不是Python。

1

我不太确定这种图的具体名称是什么(可能是最小权重生成树?),不过你可以看看 Graphviz。这个工具很不错,还有一些 Python的接口可以使用。如果没有这些接口,你也可以直接生成一个输入文件,或者把数据直接输入进去。

撰写回答