Python:Gensim Word2vec模型类中的“size”参数是什么

1条回答

网友

1楼 · 发布于 2024-06-10 23:47:47

size是向量的维数。

Word2Vec需要大的、多样的文本示例来创建每个单词的“密集”嵌入向量。（这是训练过程中许多对比示例之间的竞争，这些示例允许单词向量移动到彼此具有有趣距离和空间关系的位置。）

如果你只有30个单词的词汇表，word2vec就不太可能是一种合适的技术。如果你想应用它，你需要使用一个比你的词汇量小得多的向量-理想情况下比eem>低得多。例如，包含成千上万个单词中的每一个的许多示例的文本可以证明100维单词向量是正确的。

使用比词汇大小更高的维度或多或少会保证“过拟合”。训练可能倾向于每个单词的一个特殊向量，本质上就像一个“一个热”编码，这将比任何其他编码表现得更好，因为在较小的维度中表示较大数量的单词不会造成跨单词干扰。

这意味着一个模型在Word2Vec内部邻近词预测任务上做得很好，但在其他下游任务上做得很糟糕，因为还没有获得可概括的相关关系知识。（在许多训练周期中，交叉词干扰是算法所需要的，以逐步适应这样一种安排：相似的词必须在学习的权重中相似，而对比的词则不同。）