我有一个受控词汇表,例如term1,term2,termN。。一个文档可以有一个或多个受控词汇表,但每个词汇表对于每个文档只能出现一次。你知道吗
假设总的受控词汇是Term1,Term2,Term3,Term4,Term5,Term6。你知道吗
选项1: Jaccard方法查看这两个数据集,并找到两个值都等于1的事件。因此,我可以将文档的受控项(项1-6)的存在性转换为二进制向量1,0。然后,基于Jaccard(http://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.spatial.distance.jaccard.html)计算相似度
选项2-使用基于tf-idf的余弦相似性,如http://brandonrose.org/clustering
在这些选项(或者其他相似性度量)中,哪种度量适合基于受控词汇表计算文档之间的相似性?我是新的数据挖掘,任何建议将不胜感激。你知道吗
它不会让我留下评论,所以我会留下答案。我做了一些类似的事情,但在R,并发现这有帮助
我不知道是否有“正确答案”。我会尝试不同的方法,看看哪种方法得出的答案最接近人类的判断。我认为“欧几里德距离”可能是最好的,但我不知道这是否适用于你。我
相关问题 更多 >
编程相关推荐