如何应用Word2Vec min_count

2024-04-24 23:16:16 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我正在训练一个(Gensim)Word2Vec模型,min_count=5。本文档了解了min_count的作用:

Ignores all words with total frequency lower than this.

闽逖数对上下文的影响是什么?假设我有一个由常用词(min_count>;5)和不常用词(min_count<;5)组成的句子,并用f和I注释:

This (f) is (f) a (f) test (i) sentence (i) which (f) is (f) shown (i) here (i)

我只是编了一个词,哪个词是常用词,哪个词不是为了演示。在

如果我删除所有不常见的单词,我们得到的是一个完全不同的上下文,而word2vec正是从这个上下文中训练出来的。例如,这句话是“训练”。此外,如果你有很多不常见的单词,那么原本彼此非常遥远的单词现在被放在相同的上下文中。在

这是对Word2Vec的正确解释吗?我们只是假设你的数据集中不应该有太多的不经常出现的单词(或者设置一个较低的最小计数阈值)?在


Tags: 文档模型iscountwithword2vecallmin
1条回答
网友
1楼 · 发布于 2024-04-24 23:16:16

低于min_count频率的单词在训练开始前被删除。因此,相关上下文window是幸存单词之间的单词距离。在

这种事实上语境的缩小通常是件好事:很少出现的单词没有足够多的例子来为自己获得好的向量。此外,虽然每个稀有词在个别情况下都是罕见的,但总的来说还是有很多的,因此这些注定要失败的向量稀有词会干扰大多数其他词的训练,成为一种噪音,使这些词向量变得更糟。在

(类似地,当使用sample参数对频繁词进行抽样时,频繁词被随机丢弃,这也基本上“缩小”了幸存单词之间的距离,并且通常提高了整体向量质量。)

相关问题 更多 >