利用亲和传播聚类相似文本并建立聚类p

2024-03-29 13:29:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个基于相似性的大学列表。例如,这个字符串“墨尔本大学”和这个字符串“Meelbourne大学”是相同的,但是有一个拼写错误。

我想用相似性传播(Scikit Learn)技术将这些相似的字符串组合在一起。在对SciKit learn应用关联传播之前,是否需要先使用Word2VEC转换字符串?

有没有一个好的教程可以告诉我如何做到这一点?


Tags: 字符串列表教程word2vecscikit相似性learn技术
1条回答
网友
1楼 · 发布于 2024-03-29 13:29:02

不要滥用群集来纠正拼写错误!在

Word2vec无法工作

它的词汇表中不会有“Meelbourne”,因为这是一个罕见的拼写错误。所以它会忽略这个词!对于弓形进近,这也是没有帮助的。在

这不是集群可以解决的问题。使用一个拼写矫正器代替。在

相关问题 更多 >