使用WordNet确定两个文本之间的语义相似度?

2024-04-19 00:51:37 发布

您现在位置:Python中文网/ 问答频道 /正文

如何使用WordNet确定python中两个文本之间的语义相似性?

明显的预处理是删除停止词和词干,但是接下来呢?

我唯一能想到的方法是计算两篇文章中每个单词之间的WordNet路径距离。这是unigrams的标准。但这些是大型(400字)文本,是自然语言文档,其中的单词没有任何特定的顺序或结构(英语语法强加的除外)。那么,你会在不同的文本中比较哪些词呢?在python中如何实现这一点?


Tags: 方法文档文本路径距离标准顺序语义
1条回答
网友
1楼 · 发布于 2024-04-19 00:51:37

你可以做的一件事是:

  1. 扼杀停止语
  2. 尽可能多地找出同义词和反义词与同一文档中其他词最大交集的词。我们把这些叫做“重要的词”
  3. 检查每个文档的重要单词集是否相同。它们越靠近,文档的语义就越相似。

还有别的办法。从每个文档中的句子中计算出句子树。然后比较两片森林。很久以前我也做过类似的工作。Here's the code(记住这是很久以前的事了,是为了上课。所以,至少可以说,代码是非常复杂的。

希望这有帮助

相关问题 更多 >