2024-06-16 16:50:52 发布
网友
我想用DBSCAN算法对数据集执行聚类。问题是数据有一些名义属性,比如zipcode和currency。你知道如何处理这些值吗?在
两种选择:
定义自定义距离函数,根据需要处理这些属性。例如,对于邮政编码,您需要查找邻近性。
使用通用DBSCAN并定义一个自定义的邻居谓词。例如,它可能要求邮政编码是相邻的和属性值相似。
不要对邮政编码使用一种热编码。这没什么意义。您还可以在分类属性上使用Hamming距离,这样更有效(参见选项1)。在
两种选择:
定义自定义距离函数,根据需要处理这些属性。例如,对于邮政编码,您需要查找邻近性。
使用通用DBSCAN并定义一个自定义的邻居谓词。例如,它可能要求邮政编码是相邻的和属性值相似。
不要对邮政编码使用一种热编码。这没什么意义。您还可以在分类属性上使用Hamming距离,这样更有效(参见选项1)。在
相关问题 更多 >
编程相关推荐