如何为短语创建word2vec,然后计算余弦相似度

2024-05-23 22:07:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我刚刚开始使用word2vec,我不知道如何创建两个不同文档集的向量(使用word2vec),document1包含一组单词加短语(列表列表)和document2只包含短语。两者都有列表长度不同。你知道吗

例如:

document_list1 =[['blogs', 'vmware', 'server', 'virtual', 'oracle update', 'virtualization', 'application server','infrastructure', 'management']['team',olympics,'sport','win''chinese olympic']..]
document_list2 = ['microsoft visual studio','desktop virtualization',
'microsoft exchange server','cloud computing','windows server 2008']['demonstration sport','commonwealth games','summer olympic games']..]

如何计算余弦相似度?我应该为文档列表1中的所有句子创建向量,然后为文档列表2创建向量,然后为余弦相似性创建向量,还是应该为两个文档列表中的每个句子分别创建向量?你知道吗

任何帮助都将不胜感激。你知道吗


Tags: 文档列表serverword2vec单词document向量games