为带有标记的给定项集创建相似性矩阵的最佳方法 - 问答 - Python中文网

为带有标记的给定项集创建相似性矩阵的最佳方法

2024-04-26 12:06:39 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我们有以下格式的数据：

{
  '1': ['Lathi Charge', 'NIT', 'Nirmal Singh']
  '2': ['Kangana Ranaut', 'Hrithik Roshan']
  '3': ['Hrithik Roshan', 'mohenjo daro', 'release date'],
  '4': ['NIT', 'Placements']
  ...
}

字典的键是项，值是与它们相关联的标记。词条数在1000万左右，我们要计算每个条目之间的相似度吗？在

和此相关的另一个问题是，若运行时出现任何新条目，那个么计算其和现有条目相似性的最佳方法是什么。在

Tags：数据 release 格式条目 charge singh nit nirmal

2条回答

网友

1楼 · 编辑于 2024-04-26 12:06:39

我能想到的只有一个相似度得分，它能可靠地处理你所看到的数据（看起来你的数据与语料库研究中收集的数据相似，在语料库研究中，文档被表示成一袋一袋的单词，每个词都可能包含语料库中其他文档中没有的几个词）：那就是余弦相似性。Here是一个很好的解释，其中包含一些python代码。在

相关问题更多 >

编程相关推荐

热门问题

热门文章