哪个相似函数nltk.corpus.wordnet找出两个词的相似性是否合适?

2024-04-28 13:15:14 发布

您现在位置:Python中文网/ 问答频道 /正文

nltk.corpus.wordnet中,哪一个相似函数适合于查找两个单词的相似性?在

 path_similarity()?
    lch_similarity()?
    wup_similarity()?
    res_similarity()?
    jcn_similarity()?
    lin_similarity()?

我想使用word clusteringyarowsky算法在大文本中查找相似的collocation。在


Tags: path函数rescorpus相似性单词wordnetword
2条回答

这些措施实际上是针对词义(或概念)而不是单词。这种区别可能很重要。换句话说,“火车”这个词可以是“火车头”或“被教导做某事”。要使用这些措施,你需要知道是什么意思。在

如果你想做单词聚类,这些方法可能不是你想要的。。。在

我自己也在玩NLTK/wordnet,目的是想用某种自动的方式匹配一些文本。正如Ted Pedersen的回答所指出的,很快就会发现nltk.corpus.wordnet中的相似函数只会对具有可靠IS-a谱系的非常密切相关的术语产生非零相似性。在

最后,我做的是在我的文本中获取词汇,然后使用引理->synset->lemmas and lemma->similar\u-to来绘制我自己的单词连接图(这很神奇),然后计算链接两个单词所需的minimum number of hops以获得它们之间某种(不)相似性度量(打印出来非常有趣;比如看一个非常奇怪的单词联想游戏)。实际上,这对我的目的来说已经足够好了,即使不考虑POS/sense。在

相关问题 更多 >