我试图建立一个预测模型,模型通过检查句子中单词的顺序来判断给定的句子是否正确。该模型检查特定的单词序列是否已经出现在一个巨大的语料库中,是否有意义
我试着用word2vec模型来做这件事,去掉了两句话的余弦相似度或WMD距离,但这只给出了基于词向量相似度的相似度,而不是单词序列的相似度。你知道吗
所以如果我们把输入分成两句话:
句子1-“我要去商店”
句子2-“我要去商店”
输出应表明句子无效或相似性小于等于20%
而word2vec模型显示了100%的相似性,因为无论顺序如何,输入的单词都是相同的。所以我猜它不能用来比较词序。任何其他建议也可能非常有用。你知道吗
我想你还没有完全理解word2vec的工作原理。它被训练成一种语言模型,但事实并非如此。这是一种将自然语言单词编码为连续空间向量的方法,可以在以后用于语言建模,包括其他任务。你知道吗
在上面的例子中,您得到了100%的相似性,因为您使用的word2vec很可能是通过“bag of words”方法训练的。它不关心单词出现的顺序,只关心上下文。你知道吗
如果您需要一些现成的工具,我建议您检查StanfordNLP(https://stanfordnlp.github.io/stanfordnlp/installation_download.html)中是否有可用的工具。你知道吗
相关问题 更多 >
编程相关推荐