如何仅将字典中的值选择/格式化为列表或numpy数组？

import numpy as np from pprint import pprint centroids = np.array([[3,44],[4,15],[5,15]]) dataPoints = np.array([[2,4],[17,4],[45,2],[45,7],[16,32],[32,14],[20,56],[68,33]]) def size(vector): return np.sqrt(sum(x**2 for x in vector)) def distance(vector1, vector2): return size(vector1 - vector2) def distances(array1, array2): lists = [[distance(vector1, vector2) for vector2 in array2] for vector1 in array1] #print lists.index(min, zip(*lists)) smallest = [min(zip(l,range(len(l)))) for l in zip(*lists)] clusters = {} for j, (_, i) in enumerate(smallest): clusters.setdefault(i,[]).append(dataPoints[j]) pprint (clusters) print'\nAverage of Each Point' avgDict = {} for k,v in clusters.iteritems(): avgDict[k] = sum(v)/ (len(v)) avgList = np.asarray(avgDict) pprint (avgList) distances(centroids,dataPoints)

{0: [array([16, 32]), array([20, 56])], 1: [array([2, 4])], 2: [array([17, 4]), array([45, 2]), array([45, 7]), array([32, 14]), array([68, 33])]} Average of Each Point array({0: array([18, 44]), 1: array([2, 4]), 2: array([41, 12])}, dtype=object)

1条回答

网友

1楼 · 发布于 2024-04-25 09:08:25

你知道吗你试着用最近的centroids的索引对dataPoints进行聚类，并找出聚类点的平均位置吗？如果是，我建议使用numpy的一些广播规则来获得您需要的输出。你知道吗

想想这个

    np.linalg.norm(centroids[None, :, :] - dataPoints[:, None, :], axis=-1)

它创建一个矩阵，显示dataPoints和centroids之间的所有距离

    array([[ 40.01249805,  11.18033989,  11.40175425],
           [ 42.3792402 ,  17.02938637,  16.2788206 ],
           [ 59.39696962,  43.01162634,  42.05948169],
           [ 55.97320788,  41.77319715,  40.79215611],
           [ 17.69180601,  20.80865205,  20.24845673],
           [ 41.72529209,  28.01785145,  27.01851217],
           [ 20.80865205,  44.01136217,  43.65775991],
           [ 65.9241989 ,  66.48308055,  65.520989  ]])

你可以用这个技巧计算最近质心的指数（为了可读性，它们被分成3行）

    In: t0 = centroids[None, :, :] - dataPoints[:, None, :]
    In: t1 = np.linalg.norm(t0, axis=-1)
    In: t2 = np.argmin(t1, axis=-1)

现在t2有了索引

    array([1, 2, 2, 2, 0, 2, 0, 2])

要找到#1簇，请使用布尔掩码t2 == 0

    In: dataPoints[t2 == 0]
    Out: array([[16, 32],
                [20, 56]])

    In: dataPoints[t2 == 1]
    Out: array([[2, 4]])

    In: dataPoints[t2 == 2]
    Out: array([[17,  4],
                [45,  2],
                [45,  7],
                [32, 14],
                [68, 33]])

或者只是计算一下你的平均值

    In: np.mean(dataPoints[t2 == 0], axis=0)
    Out: array([ 18.,  44.])

    In: np.mean(dataPoints[t2 == 1], axis=0)
    Out: array([ 2.,  4.])

    In: np.mean(dataPoints[t2 == 2], axis=0)
    Out: array([ 41.4,  12. ])

当然，如果需要，后面的块可以在for循环中重写。你知道吗

在我看来，用numpy的惯例来制定解决方案可能是一个很好的做法。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章