如何高效计算数百万字符串的余弦相似度
我需要计算一个列表中字符串之间的余弦相似度。比如说,我有一个包含超过1000万个字符串的列表,每个字符串都要和列表中的其他所有字符串进行相似度比较。我可以用什么算法来高效快速地完成这个任务呢?分治算法适用吗?
编辑
我想找出哪些字符串和给定的字符串最相似,并且能够给出一个相似度的评分。我觉得我想做的事情和聚类有关,但聚类的数量一开始并不知道。
我需要计算一个列表中字符串之间的余弦相似度。比如说,我有一个包含超过1000万个字符串的列表,每个字符串都要和列表中的其他所有字符串进行相似度比较。我可以用什么算法来高效快速地完成这个任务呢?分治算法适用吗?
编辑
我想找出哪些字符串和给定的字符串最相似,并且能够给出一个相似度的评分。我觉得我想做的事情和聚类有关,但聚类的数量一开始并不知道。