数据挖掘:基于DBSCAN-alg的名词性属性聚类

2024-06-16 16:50:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我想用DBSCAN算法对数据集执行聚类。问题是数据有一些名义属性,比如zipcode和currency。你知道如何处理这些值吗?在


Tags: 数据算法属性聚类currencydbscanzipcode名义
1条回答
网友
1楼 · 发布于 2024-06-16 16:50:52

两种选择:

  1. 定义自定义距离函数,根据需要处理这些属性。例如,对于邮政编码,您需要查找邻近性。

  2. 使用通用DBSCAN并定义一个自定义的邻居谓词。例如,它可能要求邮政编码是相邻的属性值相似。

不要对邮政编码使用一种热编码。这没什么意义。您还可以在分类属性上使用Hamming距离,这样更有效(参见选项1)。在

相关问题 更多 >