我正在尝试使用英文维基百科转储(https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2)作为我预先训练好的word2vec模型,使用Gensim
。你知道吗
from gensim.models.keyedvectors import KeyedVectors
model_path = 'enwiki-latest-pages-articles.xml.bz2'
w2v_model = KeyedVectors.load_word2vec_format(model_path, binary=True)
当我这么做的时候
342 with utils.smart_open(fname) as fin:
343 header = utils.to_unicode(fin.readline(), encoding=encoding)
--> 344 vocab_size, vector_size = (int(x) for x in header.split()) # throws for invalid file format
345 if limit:
346 vocab_size = min(vocab_size, limit)
ValueError: invalid literal for int() with base 10: '<mediawiki'
我需要重新下载吗?你知道吗
该转储文件以XML格式包含实际的Wikipedia文章—没有矢量。
load_word2vec_format()
方法只加载先前训练过的向量集。你知道吗您的
gensim
安装的docs/notebooks
目录包含许多可以运行的演示Jupyter笔记本。其中之一doc2vec-wikipedia.ipynb
显示了基于维基百科文章转储的训练文档向量。(它可以很容易地调整为只训练单词向量。)您也可以在线查看此笔记本:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb
请注意,如果您在本地运行它们并在信息级别启用日志记录,您将从中了解更多。此外,此特定培训可能需要一整天或更长时间才能运行,并且需要一台16GB或更大内存的机器。你知道吗
相关问题 更多 >
编程相关推荐