Gensim: 关键错误: "词语不在词汇表中"

b = ['let', 'know', 'buy', 'someth', 'featur', 'mashabl', 'might', 'earn', 'affili', 'commiss', 'fifti', 'year', 'ago', 'graduat', '21yearold', 'dustin', 'hoffman', 'pull', 'asid', 'given', 'one', 'piec', 'unsolicit', 'advic', 'percent', 'buy']

2条回答

网友

1楼 · 编辑于 2024-05-14 19:57:05

传递给gensim.models.Word2Vec的第一个参数是一个iterable语句。句子本身就是一个单词表。从文档中：

Initialize the model from an iterable of sentences. Each sentence is a list of words (unicode strings) that will be used for training.

现在，它认为列表中的每个单词都是一个句子，因此它对每个单词中的每个字符都执行Word2Vec，而不是对列表中的每个单词执行b。现在你可以：

model = gensim.models.Word2Vec(b,min_count=1,size=32)

print(model['a'])
array([  7.42487283e-03,  -5.65282721e-03,   1.28707094e-02, ... ]

要使它对单词起作用，只需将b包装在另一个列表中，以便正确解释它：

model = gensim.models.Word2Vec([b],min_count=1,size=32)

print(model['buy'])
array([-0.01331611,  0.00496594, -0.00165093, -0.01444992,  0.01393849, ... ]

网友

2楼 · 编辑于 2024-05-14 19:57:05

从文档中，您需要传递可iterable语句，因此无论您传递给函数的是什么，它都将输入视为可iterable，因此这里您只传递单词，因此它计算整个语料库中每个字符的word2vec向量。

所以为了避免这个问题，在列表中传递单词列表。

word2vec_model = gensim.models.Word2Vec([b],min_count=1,size=32)

相关问题更多 >

编程相关推荐

热门问题

热门文章