我试图计算给定段落/文本中的语义连贯性,例如,如果有人在谈论某件事或主题时偏离了轨道,更具体地说是描述一幅图片(图片可能有许多子细节)
例如—
我喜欢运动。世界上有那么多体育迷
我喜欢运动。有一种致命的病毒在全世界传播
转录本1的语义连贯性应较高,转录本2的语义连贯性应较低。我正在使用BERT(BERT as service)为这些句子生成句子嵌入。然后,我通过计算句子嵌入向量之间的余弦相似性,尝试比较给定转录本中的句子I和I+1。我还尝试过使用滑动窗口(有重叠和无重叠)来计算余弦相似性
我遇到的问题是,两个句子的余弦相似性非常接近,例如上面的例子,而我预计这两个句子之间的差异会更大
我正在考虑使用一个基于维基百科数据的LSA模型,看看我是否能看到更好的区分。有没有更好的方法
你可以试试句子变形金刚。它是为您描述的任务而设计的
https://www.sbert.net/
相关问题 更多 >
编程相关推荐