我们有以下格式的数据:
{
'1': ['Lathi Charge', 'NIT', 'Nirmal Singh']
'2': ['Kangana Ranaut', 'Hrithik Roshan']
'3': ['Hrithik Roshan', 'mohenjo daro', 'release date'],
'4': ['NIT', 'Placements']
...
}
字典的键是项,值是与它们相关联的标记。词条数在1000万左右,我们要计算每个条目之间的相似度吗?在
和此相关的另一个问题是,若运行时出现任何新条目,那个么计算其和现有条目相似性的最佳方法是什么。在
我能想到的只有一个相似度得分,它能可靠地处理你所看到的数据(看起来你的数据与语料库研究中收集的数据相似,在语料库研究中,文档被表示成一袋一袋的单词,每个词都可能包含语料库中其他文档中没有的几个词):那就是余弦相似性。Here是一个很好的解释,其中包含一些python代码。在
相关问题 更多 >
编程相关推荐