用gensim加载一部分手套向量

def readWordEmbeddingVector(Wrd): f = open('glove.twitter.27B/glove.twitter.27B.200d.txt','r') words = [] a = f.readline() while a!= '': vector = a.split() if vector[0] in Wrd: words.append(vector) Wrd.remove(vector[0]) a = f.readline() f.close() words_vector = pd.DataFrame(words).set_index(0).astype('float') return words_vector

1条回答

网友

1楼 · 发布于 2024-05-29 02:52:56

现有的gensim不支持过滤通过load_word2vec_format()加载的单词。最接近的是一个可选的limit参数，可用于限制读取的单词向量的数量（忽略所有后续向量）。在

您可以使用load_word2vec_format()的源代码作为模型，创建自己的例程来执行这种过滤。实际上，您可能需要读取文件两次：首先，要确定文件中有多少单词与您感兴趣的单词集相交（这样您就可以在不信任文件前面声明的大小的情况下分配大小合适的数组），然后第二次实际读取感兴趣的单词。在

相关问题更多 >

编程相关推荐

热门问题

热门文章