KMeans集群如何帮助分析word2vec嵌入？

1条回答

网友

1楼 · 发布于 2024-04-27 06:11:16

“前十名”是一个定义不清的概念。最具代表性的前十名？定义集群边界的10个单词？还有别的吗

然而，考虑到这是对您所描述的算法管道性能的定性评估（而不是定量度量），您可能只需要尝试一些事情，看看什么“有效”，例如什么让您有了洞察力……
我想到的两个明显的选择是：

靠近簇质心的词：每个k-均值簇都有一个质心（簇中点位置的平均值），靠近中心的点可能是基础类的“强”代表
更一般的-在（降维）嵌入空间本身中查看单词。要么在PCA的前两个特征向量的特征空间中，你声称这对你有用，要么使用稍微现代一点（而且线性度要低得多）的东西，比如tsne

还有许多其他选择，但这些都是常见的做法，也是一个很好的起点

关于评论：从df的外观来看，对于clusteri的单词列表，您只需要执行以下操作-

list_of_words = df[i]['clean'].split()

但是，对于数据帧的图像，我们只能做这么多，这超出了原始问题的范围