如何计算皮尔逊相关矩阵并仅保留有效值？

1条回答

网友

1楼 · 发布于 2024-04-26 15:11:03

在文档中查找^{}揭示了用于计算相关性的公式。使用矢量化来获得矩阵的每一列之间的相关性应该不太困难。你知道吗

虽然可以使用pandas计算C的值，但我将展示整个过程的纯numpyan实现。你知道吗

首先，计算r值：

X = np.array([[1,  1, -2],
              [0,  0,  0],
              [0, .2,  1],
              [5,  3,  4]])
n = X.shape[0]

X -= X.mean(axis=0)
s = (X**2).sum(axis=0)
r = (X[..., None] * X[..., None, :]).sum(axis=0) / np.sqrt(s[:, None] * s[None, :])

考虑到scipy中beta分布的存在，计算p值变得很简单。直接取自文件：

dist = scipy.stats.beta(n/2 - 1, n/2 - 1, loc=-1, scale=2)
p = 2 * dist.cdf(-abs(r))

您可以使用阈值从p生成一个掩码，并将其应用于r以生成C：

mask = (p <= 0.01)
C = np.zeros_like(r)
C[mask] = r[mask]

更好的选择可能是修改r：

r[p > 0.1] = 0

函数形式：

def non_trivial_correlation(X, threshold=0.1):
    n = X.shape[0]
    X = X - X.mean(axis=0) # Don't modify the original
    x = (X**2).sum(axis=0)
    r = (X[..., None] * X[..., None, :]).sum(axis=0) / np.sqrt(s[:, None] * s[None, :])
    p = 2 * scipy.stats.beta(n/2 - 1, n/2 - 1, loc=-1, scale=2).cdf(-abs(r))
    r[p > threshold] = 0
    return r

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何计算皮尔逊相关矩阵并仅保留有效值？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >