计算给定语音记录中的语义连贯性

2024-04-24 21:21:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图计算给定段落/文本中的语义连贯性,例如,如果有人在谈论某件事或主题时偏离了轨道,更具体地说是描述一幅图片(图片可能有许多子细节)

例如—

我喜欢运动。世界上有那么多体育迷

我喜欢运动。有一种致命的病毒在全世界传播

转录本1的语义连贯性应较高,转录本2的语义连贯性应较低。我正在使用BERT(BERT as service)为这些句子生成句子嵌入。然后,我通过计算句子嵌入向量之间的余弦相似性,尝试比较给定转录本中的句子I和I+1。我还尝试过使用滑动窗口(有重叠和无重叠)来计算余弦相似性

我遇到的问题是,两个句子的余弦相似性非常接近,例如上面的例子,而我预计这两个句子之间的差异会更大

我正在考虑使用一个基于维基百科数据的LSA模型,看看我是否能看到更好的区分。有没有更好的方法


Tags: 文本主题as语义世界图片相似性细节