datasketch:MinHash LSH-Fores

2024-06-11 16:58:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试创建一个forst,用于最近邻搜索,但我不确定是否正确,或者MinHash/LSH是否适合我的数据。我问这个是因为结果不可用。在

我试图遵循文档中的example。在

我的数据:

512维,例如值是位,例如0或1 这实际上对MinHash/LSH有用吗? 如果是,我该如何为每个记录构造MinHash?在

据我所知,minhash的目的已经是将数据映射到这样一个位结构?所以我就可以把它装进去?如h = MinHash(num_perm=512, hashvalues=listOfBits)中所示?在


Tags: 数据文档目的example记录结构numperm
1条回答
网友
1楼 · 发布于 2024-06-11 16:58:38

MinHash是一种可以使用的技术,如果单个数据记录可以被描述为集合(例如,文本文档作为单词集),并且这些记录之间的相似性通过对应集合的Jaccard相似性来描述。在

如果你真的想应用MinHash,你需要首先找到一种方法来表示你的512大小的位向量。一种可能性是考虑值为1的比特索引集。接下来,您需要考虑这些位索引集之间的Jaccard相似性是否真的有意义,并恰当地描述了相似性。在

相关问题 更多 >