基于受控词汇表的文档相似度度量

2024-05-14 16:09:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个受控词汇表,例如term1,term2,termN。。一个文档可以有一个或多个受控词汇表,但每个词汇表对于每个文档只能出现一次。你知道吗

假设总的受控词汇是Term1,Term2,Term3,Term4,Term5,Term6。你知道吗

  1. 文件1(4个条款):条款1、条款2、条款5、条款6
  2. 文件2(2条款):条款2、条款5

选项1: Jaccard方法查看这两个数据集,并找到两个值都等于1的事件。因此,我可以将文档的受控项(项1-6)的存在性转换为二进制向量1,0。然后,基于Jaccard(http://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.spatial.distance.jaccard.html)计算相似度

  • 文档1:{1,1,0,0,1,1}
  • 文档2:{0,1,0,0,1,0}

选项2-使用基于tf-idf的余弦相似性,如http://brandonrose.org/clustering

在这些选项(或者其他相似性度量)中,哪种度量适合基于受控词汇表计算文档之间的相似性?我是新的数据挖掘,任何建议将不胜感激。你知道吗


Tags: 文件词汇表term1文档orghttp度量选项
1条回答
网友
1楼 · 发布于 2024-05-14 16:09:01

它不会让我留下评论,所以我会留下答案。我做了一些类似的事情,但在R,并发现这有帮助

http://text2vec.org/similarity.html#cosine_similarity

我不知道是否有“正确答案”。我会尝试不同的方法,看看哪种方法得出的答案最接近人类的判断。我认为“欧几里德距离”可能是最好的,但我不知道这是否适用于你。我

相关问题 更多 >

    热门问题