基于受控词汇表的文档相似度度量 - 问答 - Python中文网

基于受控词汇表的文档相似度度量

2024-05-14 16:09:01 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个受控词汇表，例如term1，term2，termN。。一个文档可以有一个或多个受控词汇表，但每个词汇表对于每个文档只能出现一次。你知道吗

假设总的受控词汇是Term1，Term2，Term3，Term4，Term5，Term6。你知道吗

文件1（4个条款）：条款1、条款2、条款5、条款6
文件2（2条款）：条款2、条款5

选项1： Jaccard方法查看这两个数据集，并找到两个值都等于1的事件。因此，我可以将文档的受控项（项1-6）的存在性转换为二进制向量1,0。然后，基于Jaccard（http://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.spatial.distance.jaccard.html）计算相似度

文档1:{1,1,0,0,1,1}
文档2:{0,1,0,0,1,0}

选项2-使用基于tf-idf的余弦相似性，如http://brandonrose.org/clustering

在这些选项（或者其他相似性度量）中，哪种度量适合基于受控词汇表计算文档之间的相似性？我是新的数据挖掘，任何建议将不胜感激。你知道吗

Tags：文件词汇表 term1 文档 org http 度量选项

1条回答

网友

1楼 · 发布于 2024-05-14 16:09:01

它不会让我留下评论，所以我会留下答案。我做了一些类似的事情，但在R，并发现这有帮助

http://text2vec.org/similarity.html#cosine_similarity

我不知道是否有“正确答案”。我会尝试不同的方法，看看哪种方法得出的答案最接近人类的判断。我认为“欧几里德距离”可能是最好的，但我不知道这是否适用于你。我

相关问题更多 >

编程相关推荐

热门问题

热门文章