晚上好,我有一个相对简单的问题,主要是因为我对python缺乏经验。我想为单词列表提取单词嵌入。在这里,我创建了一个简单的列表:
list_word = [['Word'],
['ant'],
['bear'],
['beaver'],
['bee'],
['bird']]
然后加载gensim和其他所需的库:
#import tweepy # Obtain Tweets via API
import re # Obtain expressions
from gensim.models import Word2Vec #Import gensim Word2Fec
现在,当我使用Word2Vec函数时,我运行以下命令:
#extract embedding length 12
model = Word2Vec(list_word, min_count = 3, size = 12)
print(model)
当模型运行时,我看到vocab大小是1,而它不应该是1。输出如下: Word2Vec(声音=1,大小=12,字母=0.025)
我认为导入的数据格式不正确,可以使用一些建议甚至示例代码来说明如何将其转换为正确的格式。谢谢你的帮助
你的
list_data
,6个句子,每个句子只有一个单词,不足以训练Word2Vec
,这需要大量不同的真实文本数据。除其他问题外:min_count=3
设置,只出现一次的单词将被忽略(&;降低该参数不是一个好主意)尝试使用更大的数据集,您将看到更真实的结果。此外,在信息级别启用Python日志记录将在代码运行时显示大量的进度,并且可能会提示一些问题,因为您注意到在有或没有合理计数的情况下发生的步骤&;耽搁
相关问题 更多 >
编程相关推荐