如何以最佳方式处理word2vec的vocab中没有的单词

word2vec_aug_32x = Word2Vec(sentences=sentences, min_count=1000, size=32, window=2, workers=16, sg=0) vocab_arr = np.array(list(word2vec_aug_32x.wv.vocab.keys())) def get_embedded_average(sentence): sentence = np.intersect1d(sentence, vocab_arr) if sentence.shape[0] > 0: return np.mean(word2vec_aug_32x[sentence], axis=0).tolist() else: return np.zeros(32).tolist() pool = multiprocessing.Pool(processes=16) w2v_averages = np.asarray(pool.map(get_embedded_average, np.asarray(sentences))) pool.close()

2条回答

网友

1楼 · 编辑于 2024-06-07 21:42:51

你可以用FastText代替Word2Vec。FastText可以通过查看子词信息（字符ngrams）来嵌入词汇表外的单词。Gensim还有一个FastText实现，非常容易使用：

from gensim.models import FastText

model = FastText(sentences=training_data, size=128, ...)

word = 'hello' # can be out of vocabulary
embedding = model[word] # fetches the word embedding

网友

2楼 · 编辑于 2024-06-07 21:42:51

通常Doc2Vec文本向量的有用性与单词向量的平均值非常相似（或者在调整时，会更好一些）。（毕竟，算法非常相似，处理相同数据的相同形式，并且创建的模型大小大致相同。）如果出现较大的下降，则可能是您的Doc2Vec过程中出现了错误。在

正如@AnnaKrogager指出的，FastText可以通过使用单词片段合成猜测向量来处理词汇表外的单词。（这要求语言中的单词有这样的共享根。）向量可能不是很好，但通常比完全忽略未知单词，或者使用所有零向量或随机插入向量要好。在

在进程之间进行拆分是否有助于运行时？因为在向子进程和从子进程发送批处理的过程中会有大量开销，而Python中的子进程可能会导致内存需求的膨胀，而且这种开销甚至可能是虚拟内存交换都会超过并行性的任何其他好处。在

相关问题更多 >

编程相关推荐

热门问题

热门文章