2024-04-28 13:15:14 发布
网友
在nltk.corpus.wordnet中,哪一个相似函数适合于查找两个单词的相似性?在
nltk.corpus.wordnet
path_similarity()? lch_similarity()? wup_similarity()? res_similarity()? jcn_similarity()? lin_similarity()?
我想使用word clustering和yarowsky算法在大文本中查找相似的collocation。在
word clustering
yarowsky
collocation
这些措施实际上是针对词义(或概念)而不是单词。这种区别可能很重要。换句话说,“火车”这个词可以是“火车头”或“被教导做某事”。要使用这些措施,你需要知道是什么意思。在
如果你想做单词聚类,这些方法可能不是你想要的。。。在
我自己也在玩NLTK/wordnet,目的是想用某种自动的方式匹配一些文本。正如Ted Pedersen的回答所指出的,很快就会发现nltk.corpus.wordnet中的相似函数只会对具有可靠IS-a谱系的非常密切相关的术语产生非零相似性。在
最后,我做的是在我的文本中获取词汇,然后使用引理->synset->lemmas and lemma->similar\u-to来绘制我自己的单词连接图(这很神奇),然后计算链接两个单词所需的minimum number of hops以获得它们之间某种(不)相似性度量(打印出来非常有趣;比如看一个非常奇怪的单词联想游戏)。实际上,这对我的目的来说已经足够好了,即使不考虑POS/sense。在
这些措施实际上是针对词义(或概念)而不是单词。这种区别可能很重要。换句话说,“火车”这个词可以是“火车头”或“被教导做某事”。要使用这些措施,你需要知道是什么意思。在
如果你想做单词聚类,这些方法可能不是你想要的。。。在
我自己也在玩NLTK/wordnet,目的是想用某种自动的方式匹配一些文本。正如Ted Pedersen的回答所指出的,很快就会发现
nltk.corpus.wordnet
中的相似函数只会对具有可靠IS-a谱系的非常密切相关的术语产生非零相似性。在最后,我做的是在我的文本中获取词汇,然后使用引理->synset->lemmas and lemma->similar\u-to来绘制我自己的单词连接图(这很神奇),然后计算链接两个单词所需的minimum number of hops以获得它们之间某种(不)相似性度量(打印出来非常有趣;比如看一个非常奇怪的单词联想游戏)。实际上,这对我的目的来说已经足够好了,即使不考虑POS/sense。在
相关问题 更多 >
编程相关推荐