从word2vec中提取单词嵌入

2024-03-29 13:09:12 发布

您现在位置:Python中文网/ 问答频道 /正文

晚上好,我有一个相对简单的问题,主要是因为我对python缺乏经验。我想为单词列表提取单词嵌入。在这里,我创建了一个简单的列表:

list_word = [['Word'],
 ['ant'],
 ['bear'],
 ['beaver'],
 ['bee'],
 ['bird']]

然后加载gensim和其他所需的库:

#import tweepy           # Obtain Tweets via API
import re               # Obtain expressions 
from gensim.models import Word2Vec    #Import gensim Word2Fec

现在,当我使用Word2Vec函数时,我运行以下命令:

#extract embedding length 12
model = Word2Vec(list_word, min_count = 3, size = 12)
print(model)

当模型运行时,我看到vocab大小是1,而它不应该是1。输出如下: Word2Vec(声音=1,大小=12,字母=0.025)

我认为导入的数据格式不正确,可以使用一些建议甚至示例代码来说明如何将其转换为正确的格式。谢谢你的帮助


Tags: import列表modelword2vec单词listwordbear
1条回答
网友
1楼 · 发布于 2024-03-29 13:09:12

你的list_data,6个句子,每个句子只有一个单词,不足以训练Word2Vec,这需要大量不同的真实文本数据。除其他问题外:

  • 由于min_count=3设置,只出现一次的单词将被忽略(&;降低该参数不是一个好主意)
  • 单字句子没有算法使用的相邻单词上下文
  • 获得好的“密集”向量需要比向量维度大得多的词汇表,以及每个单词与其他单词的用法的许多不同示例

尝试使用更大的数据集,您将看到更真实的结果。此外,在信息级别启用Python日志记录将在代码运行时显示大量的进度,并且可能会提示一些问题,因为您注意到在有或没有合理计数的情况下发生的步骤&;耽搁

相关问题 更多 >