计算文本相似度的最佳方法是什么?

2024-04-27 05:20:56 发布

您现在位置:Python中文网/ 问答频道 /正文

有一些方法可以检索文本之间的相似性,如wup\u similarity()cosine\u similarity()等。我的目的是做一篇论文系统。那个意思是我想比较答题表和评分方案。到目前为止,我做了以下没有使用任何培训或建模方法。你知道吗

1.对两份文件进行预处理(删除标点符号、进行柠檬化等)。你知道吗

2.接着利用word-net-syn集合得到相似的单词,并制作了两个大数组(用同义词标记方案和用同义词答题表)——可能不是正确的方式。你知道吗

3.然后我需要比较这两个大数组,并希望得到相似性值

你能给我一些建议或答案吗。我知道wordnetsyn集不是最好的,因为它会给出不相关的答案。 例如:animal和vehicle将返回1作为相似的值。你知道吗

但是我需要找到解决办法。你知道吗


Tags: 方法答案文本目的系统方案数组建模
1条回答
网友
1楼 · 发布于 2024-04-27 05:20:56

几乎每个搜索引擎使用的标准方法是将TF-IDF向量与余弦相似性进行比较。这可能不会公正地对待你的任务,因为你谈论的是给定评分方案的论文评估。这还包括检查重要命题的同一性(在动词-论元结构的意义上) 答案的修辞结构。这一点很重要,因为“哥伦布探索美洲大陆”在语义上可能与“美洲大陆探索哥伦布”有关,但后者显然是无意义的(在大陆是主体的条件下)。也许我们可以看看话语表征理论(DRT)和需要为其建模的形式逻辑。比较你的文章的drt会做得更好,对议论文也是如此。你知道吗

对于drt,您可能希望从以下内容开始:https://plato.stanford.edu/entries/discourse-representation-theory/#DRSLanSynSemAcc。这很复杂,你的申请也很复杂。另一种方法是使用依赖关系解析器,以便从你的评分方案中提取最重要的命题,然后检查这些关系与某篇文章的答案有多少相似之处。为此,可以使用向量的相似性度量或关系(动词)和参数的嵌入,以及它们各自的角色(“主语”和“宾语”)。我认为在你使用完整的DRTs之前尝试这个方法是值得的,因为根据你的领域来定制它是一项非常繁重的工作。你知道吗

相关问题 更多 >