我有一个用例,在这个用例中,我需要集群N个事务,但有一个约束,即结果集群中的特定列值对于单个集群应该相同。为此,我一直在使用sklearn的NearestNeights-NN,它似乎在一定程度上锻炼了身体。选择的距离度量是余弦,数据类型是分类的-在实际聚类之前进行一次热编码
现在,如果我有列c1,c2…cn,它与NN一起用于集群,并且如果我想要强制执行标准,对于特定的集群派生的Gi,应该有一个唯一的值,用于列cx,在Gi中。我将如何执行这一点
我浏览了一些文档,其中一些技术间接地建议按cx列进行分组,然后在data and cluster中进行聚类或复制cx列。这些方法是否有效地解决了这个问题
如果您有一个反向索引,那么强制执行一个特定的值是必需的,而其他值是可选的,并且仅用于相似性,这应该很简单。只需考虑带有必填和可选术语的全文搜索示例
根据您执行的查询数量,线性搜索和“分组方式”都可以
相关问题 更多 >
编程相关推荐