如何使用wikipedia转储作为Gensim模型？

342 with utils.smart_open(fname) as fin: 343 header = utils.to_unicode(fin.readline(), encoding=encoding) --> 344 vocab_size, vector_size = (int(x) for x in header.split()) # throws for invalid file format 345 if limit: 346 vocab_size = min(vocab_size, limit) ValueError: invalid literal for int() with base 10: '<mediawiki'

1条回答

网友

1楼 · 发布于 2024-04-25 21:56:27

该转储文件以XML格式包含实际的Wikipedia文章—没有矢量。load_word2vec_format()方法只加载先前训练过的向量集。你知道吗

您的gensim安装的docs/notebooks目录包含许多可以运行的演示Jupyter笔记本。其中之一doc2vec-wikipedia.ipynb显示了基于维基百科文章转储的训练文档向量。（它可以很容易地调整为只训练单词向量。）

您也可以在线查看此笔记本：

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb

请注意，如果您在本地运行它们并在信息级别启用日志记录，您将从中了解更多。此外，此特定培训可能需要一整天或更长时间才能运行，并且需要一台16GB或更大内存的机器。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章