可视化数据和聚类
我现在正在写一个Python脚本,用来找出文档之间的相似度。我已经计算出了每对文档的相似度分数,并把它们存储在字典里。看起来像这样:
{(8328, 8327): 1.0, (8313, 8306): 0.12405229825691289, (8329, 8328): 1.0, (8322, 8321): 0.99999999999999989, (8328, 8329): 1.0, (8306, 8316): 0.12405229825691289, (8320, 8319): 0.67999999999999989, (8337, 8336): 1.0000000000000002, (8319, 8320): 0.67999999999999989, (8313, 8316): 0.99999999999999989, (8321, 8322): 0.99999999999999989, (8330, 8328): 1.0}
我的最终目标是把相似的文档聚集在一起。上面的数据可以用另一种方式来看。比如说文档对(8313, 8306),它的相似度分数是0.12405。我可以说,这个分数的倒数就是文档8313和8306之间的距离。因此,相似的文档会聚得更近,而不太相似的文档则会相对远一些,基于它们的距离。
我想问的是,有没有什么开源的可视化工具可以帮助我实现这个目标?