计算文本相似度的最佳方法是什么？

1条回答

网友

1楼 · 发布于 2024-04-27 05:20:56

几乎每个搜索引擎使用的标准方法是将TF-IDF向量与余弦相似性进行比较。这可能不会公正地对待你的任务，因为你谈论的是给定评分方案的论文评估。这还包括检查重要命题的同一性（在动词-论元结构的意义上）答案的修辞结构。这一点很重要，因为“哥伦布探索美洲大陆”在语义上可能与“美洲大陆探索哥伦布”有关，但后者显然是无意义的（在大陆是主体的条件下）。也许我们可以看看话语表征理论（DRT）和需要为其建模的形式逻辑。比较你的文章的drt会做得更好，对议论文也是如此。你知道吗

对于drt，您可能希望从以下内容开始：https://plato.stanford.edu/entries/discourse-representation-theory/#DRSLanSynSemAcc。这很复杂，你的申请也很复杂。另一种方法是使用依赖关系解析器，以便从你的评分方案中提取最重要的命题，然后检查这些关系与某篇文章的答案有多少相似之处。为此，可以使用向量的相似性度量或关系（动词）和参数的嵌入，以及它们各自的角色（“主语”和“宾语”）。我认为在你使用完整的DRTs之前尝试这个方法是值得的，因为根据你的领域来定制它是一项非常繁重的工作。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章