如何应用Word2Vec min_count - 问答 - Python中文网

如何应用Word2Vec min_count

2024-04-24 23:16:16 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

假设我正在训练一个（Gensim）Word2Vec模型，min_count=5。本文档了解了min_count的作用：

Ignores all words with total frequency lower than this.

闽逖数对上下文的影响是什么？假设我有一个由常用词（min_count>；5）和不常用词（min_count<；5）组成的句子，并用f和I注释：

This (f) is (f) a (f) test (i) sentence (i) which (f) is (f) shown (i) here (i)

我只是编了一个词，哪个词是常用词，哪个词不是为了演示。在

如果我删除所有不常见的单词，我们得到的是一个完全不同的上下文，而word2vec正是从这个上下文中训练出来的。例如，这句话是“训练”。此外，如果你有很多不常见的单词，那么原本彼此非常遥远的单词现在被放在相同的上下文中。在

这是对Word2Vec的正确解释吗？我们只是假设你的数据集中不应该有太多的不经常出现的单词（或者设置一个较低的最小计数阈值）？在

Tags：文档模型 is count with word2vec all min

1条回答

网友

1楼 · 发布于 2024-04-24 23:16:16

低于min_count频率的单词在训练开始前被删除。因此，相关上下文window是幸存单词之间的单词距离。在

这种事实上语境的缩小通常是件好事：很少出现的单词没有足够多的例子来为自己获得好的向量。此外，虽然每个稀有词在个别情况下都是罕见的，但总的来说还是有很多的，因此这些注定要失败的向量稀有词会干扰大多数其他词的训练，成为一种噪音，使这些词向量变得更糟。在

（类似地，当使用sample参数对频繁词进行抽样时，频繁词被随机丢弃，这也基本上“缩小”了幸存单词之间的距离，并且通常提高了整体向量质量。）

相关问题更多 >

编程相关推荐

热门问题

热门文章