朴素贝叶斯分类中特征值的快速计数

N, D = X.shape K = np.max(X)+1 C = np.max(y)+1 ccl = np.zeros((C,D,K)) # ccl = ccl + alpha - 1 # disregard the dirichlet prior for this question # Count occurences of feature values given class c for i in range(N): for d in range(D): ccl[y[i]][d][X[i][d]] += 1 # Renormalize so it becomes a probability distribution again for c in range(C): for d in range(D): cls[c][d] = np.divide(cls[c][d], np.sum(cls[c][d]))

ccl = np.zeros((C,D,K)) for c in range(C): x = np.eye(K)[X[np.where(y==c)]] # one hot encoding ccl[c] += np.sum(x, axis=0) # summing up ccl[c] /= ccl[c].sum(axis=1)[:, numpy.newaxis] # renormalization

1条回答

网友

1楼 · 发布于 2024-05-16 20:26:18

所以这是一个非常巧妙的问题（我有一个similar problem not that long ago）。处理这个问题的最快方法通常是使用算术运算构造一个索引数组，然后用np.bincount对其进行堆积和整形。你知道吗

N, D = X.shape
K = np.max(X) + 1
C = np.max(y) + 1
ccl = np.tile(y, D) * D * K + (X +  np.tile(K * range(D), (N,1))).T.flatten()
ccl = np.bincount(ccl, minlength=C*D*K).reshape(C, D, K)
ccl = np.divide(ccl, np.sum(ccl, axis=2)[:, :, np.newaxis])

>>> ccl
array([[[0.5, 0. , 0.5],
        [0. , 0.5, 0.5]],

       [[0. , 1. , 0. ],
        [0. , 0. , 1. ]],

       [[0. , 0. , 1. ],
        [0. , 0. , 1. ]]])

作为速度比较，funca是第一个基于循环的方法，funcb是第二个基于numpy函数的方法，funcc是使用bincount的方法。你知道吗

X = np.random.randint(3, size=(10000,2))
y = np.random.randint(3, size=(10000))
>>> timeit.timeit('funca(X,y)', number=100, setup="from __main__ import funca, X, y")
2.632569645998956
>>> timeit.timeit('funcb(X,y)', number=100, setup="from __main__ import funcb, X, y")
0.10547748399949342
>>> timeit.timeit('funcc(X,y)', number=100, setup="from __main__ import funcc, X, y")
0.03524605900020106

也许可以进一步完善这一点，但我没有更多的好主意。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章