我已生成PySpark Word2Vec模型,并将其保存为:
from pyspark.ml.feature import Word2Vec
w2v = Word2Vec(minCount = 1000, seed=42, inputCol="item_name", outputCol="features")
model = w2v.fit(sample)
model.save('w2v_pyspark')
为什么我使用PySpark W2V?因为我从蜂巢表中收集了样本,而且样本非常大,所以我没有将spark数据帧转换为pandas数据帧。那么为什么我需要gensim?因为我想做美丽的想象。我需要对word2vec模型进行集群并将其可视化,但是pyspark函数没有太多的函数,我不能使用TensorBoard。所以我试着用gensim加载模型,但它不起作用,因为没有测试数据
from gensim.test.utils import datapath
from gensim.models import KeyedVectors
gensim_model = KeyedVectors.load_word2vec_format(datapath('w2v_pyspark'), binary=False)
IOError: [Errno 2] No such file or directory:u'/data/anaconda2/lib/python2.7/site-packages/gensim/test/test_data/w2v_pyspark'
我把pyspark模型中的数据放到这个路径上,它也不起作用。我怎样才能解决这个问题? 此外,如果您知道一些关于如何通过PySpark进行集群和可视化的想法,欢迎您
目前没有回答
相关问题 更多 >
编程相关推荐