python中分类数据的层次聚类

import scipy import scipy.cluster.hierarchy as sch X = scipy.randn(100, 2) # 100 2-dimensional observations d = sch.distance.pdist(X) # vector of (100 choose 2) pairwise distances L = sch.linkage(d, method='complete') ind = sch.fcluster(L, 0.5*d.max(), 'distance')

2条回答

网友

1楼 · 编辑于 2024-05-16 10:18:33

另一种可能性是使用汉明距离。在

Y = pdist(X, 'hamming')
Computes the normalized Hamming distance, or the proportion of those vector elements between two n-vectors u and v which disagree. To save memory, the matrix X can be of type boolean.

如果你的分类数据由一个字符表示，例如：“m”/“f”，那么它可能就是你要找的。在

https://en.wikipedia.org/wiki/Hamming_distance

https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.pdist.html#scipy.spatial.distance.pdist

网友

2楼 · 编辑于 2024-05-16 10:18:33

我想我们已经确定了问题所在：您将X值保持原样，即字符串数据。您可以将这些传递给pdist，但还必须为距离度量提供一个2进制函数（2个输入，数字输出）。在

最简单的方法是相等的分类有0个距离；其他的都是1。你可以用

d = sch.distance.pdist(X, lambda u, v: u != v)

如果您想知道其他类的区别，只需编写逻辑以返回所需的距离，将其包装在一个函数中，然后将函数名传递给pdist。我们对此无能为力，因为您没有告诉我们您的类或模型语义。在

这能让你动起来吗？在

相关问题更多 >

编程相关推荐

热门问题

热门文章