如何解释gensim的Word2vec最相似方法的输出，并了解它是如何产生输出值的

Patient1: ['fever', 'loss of appetite', 'cold', '#flu#'] Patient2: ['hair loss', 'blood pressure', '#thyroid'] Patient3: ['hair loss', 'blood pressure', '#flu] .. .. Patient30000: ['vomiting', 'nausea', '#diarrohea']

1条回答

网友

1楼 · 发布于 2024-05-19 00:23:35

Word2vec将为您提供n维向量，这些向量根据疾病的共现情况表示每种疾病。这意味着您将每个症状表示为一个向量

一排-

X = ['fever', 'loss of appetite']

X_onehot= [[0,0,0,1,0,0,0,0,0,0,0],
           [0,0,0,0,0,0,0,0,1,0,0]]

X_word2vec= [[0.002,0.25,-0.1,0.335,0.7264],
             [0.746,0.6463,0.0032,0.6301,0.223]]

Y = #flu

现在，您可以通过取word2vec的平均值来表示数据中的每一行，例如-

X_avg = [[0.374 ,0.44815, -0.0484, 0.48255, 0.4747]]

现在，数据集中的每一行都有一个5长度的特征向量和一个类。接下来，您可以将其视为任何其他机器学习问题

如果你想预测疾病，那么只需在列车测试分割后使用分类模型。这样您就可以验证数据

对word2vec向量使用余弦相似性只会产生类似的症状。它不允许您建立疾病推荐模型，因为这样您将根据其他类似症状推荐症状。

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何解释gensim的Word2vec最相似方法的输出，并了解它是如何产生输出值的

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >