如何转换PySpark Word2Vec模型并将其加载到gensim Word2Vec模型中?

2024-04-26 00:10:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我已生成PySpark Word2Vec模型,并将其保存为:

from pyspark.ml.feature import Word2Vec

w2v = Word2Vec(minCount = 1000, seed=42, inputCol="item_name", outputCol="features")
model = w2v.fit(sample)
model.save('w2v_pyspark')

为什么我使用PySpark W2V?因为我从蜂巢表中收集了样本,而且样本非常大,所以我没有将spark数据帧转换为pandas数据帧。那么为什么我需要gensim?因为我想做美丽的想象。我需要对word2vec模型进行集群并将其可视化,但是pyspark函数没有太多的函数,我不能使用TensorBoard。所以我试着用gensim加载模型,但它不起作用,因为没有测试数据

from gensim.test.utils import datapath
from gensim.models import KeyedVectors

gensim_model = KeyedVectors.load_word2vec_format(datapath('w2v_pyspark'), binary=False)

IOError: [Errno 2] No such file or directory:u'/data/anaconda2/lib/python2.7/site-packages/gensim/test/test_data/w2v_pyspark'

我把pyspark模型中的数据放到这个路径上,它也不起作用。我怎样才能解决这个问题? 此外,如果您知道一些关于如何通过PySpark进行集群和可视化的想法,欢迎您


Tags: 数据from模型testimportmodel可视化集群