基于近邻的加权聚类

2024-04-20 00:52:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个用例,在这个用例中,我需要集群N个事务,但有一个约束,即结果集群中的特定列值对于单个集群应该相同。为此,我一直在使用sklearn的NearestNeights-NN,它似乎在一定程度上锻炼了身体。选择的距离度量是余弦,数据类型是分类的-在实际聚类之前进行一次热编码

现在,如果我有列c1,c2…cn,它与NN一起用于集群,并且如果我想要强制执行标准,对于特定的集群派生的Gi,应该有一个唯一的值,用于列cx,在Gi中。我将如何执行这一点

我浏览了一些文档,其中一些技术间接地建议按cx列进行分组,然后在data and cluster中进行聚类或复制cx列。这些方法是否有效地解决了这个问题


Tags: 距离度量集群聚类nnsklearn用例事务
1条回答
网友
1楼 · 发布于 2024-04-20 00:52:16

如果您有一个反向索引,那么强制执行一个特定的值是必需的,而其他值是可选的,并且仅用于相似性,这应该很简单。只需考虑带有必填和可选术语的全文搜索示例

根据您执行的查询数量,线性搜索和“分组方式”都可以

相关问题 更多 >