Python:Gensim Word2vec模型类中的“size”参数是什么

2024-04-26 05:45:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直在努力理解size参数在gensim.models.Word2Vec中的用法

在Gensim文档中,size是向量的维数。现在,据我所知,word2vec为每个单词创建了一个与句子中其他单词接近的概率向量。那么,假设我的vocab大小是30,那么它如何创建一个维度大于30的向量呢?有谁能介绍一下Word2Vec大小的最佳值吗?

谢谢你。


Tags: 文档用法参数sizemodelsword2vec概率单词
1条回答
网友
1楼 · 发布于 2024-04-26 05:45:18

size是向量的维数。

Word2Vec需要大的、多样的文本示例来创建每个单词的“密集”嵌入向量。(这是训练过程中许多对比示例之间的竞争,这些示例允许单词向量移动到彼此具有有趣距离和空间关系的位置。)

如果你只有30个单词的词汇表,word2vec就不太可能是一种合适的技术。如果你想应用它,你需要使用一个比你的词汇量小得多的向量-理想情况下比eem>低得多。例如,包含成千上万个单词中的每一个的许多示例的文本可以证明100维单词向量是正确的。

使用比词汇大小更高的维度或多或少会保证“过拟合”。训练可能倾向于每个单词的一个特殊向量,本质上就像一个“一个热”编码,这将比任何其他编码表现得更好,因为在较小的维度中表示较大数量的单词不会造成跨单词干扰。

这意味着一个模型在Word2Vec内部邻近词预测任务上做得很好,但在其他下游任务上做得很糟糕,因为还没有获得可概括的相关关系知识。(在许多训练周期中,交叉词干扰是算法所需要的,以逐步适应这样一种安排:相似的词必须在学习的权重中相似,而对比的词则不同。)

相关问题 更多 >