PCA（）.fit（）使用错误的轴进行数据输入

import numpy as np import matplotlib.pyplot as plt from sklearn.decomposition import PCA test = np.array(pd.read_csv("testing.csv", sep=',')) training = np.array(pd.read_csv("training.csv", sep=',')) # ID Number = [0] # features = [1:4096] training_data = StandardScaler().fit_transform(training[:,1:4096]) test_data = StandardScaler().fit_transform(test[:,1:4096]) training_labels = training[:,4609] pca = PCA() pca.fit(training_data) pca_variance = pca.explained_variance_.

1条回答

网友

1楼 · 发布于 2024-04-26 23:16:59

你说：

" but it should have length 4095 so that I can work out the variance of each dimension, not the variance of each data point."

否。只有当您使用pca = PCA(n_components=4095)估计4095个组件时，这才是正确的

另一方面，您定义：

pca = PCA() # this is actually PCA(n_components=None)

因此n_components被设置为None

当这种情况发生时，我们有（参见documentation here）：

n_components == min(n_samples, n_features)

因此，在您的例子中，您有min(247, 4095) = 247个组件

因此，pca.explained_variance_.将是一个形状为247的向量，因为您有247个PC维度

为什么我们有n_components == min(n_samples, n_features)？

这与协方差/相关矩阵的秩有关。如果数据矩阵X具有[247,4095]形状，协方差/相关矩阵将是[4095,4095]，最大秩=最小（n个样本，n个特征）。因此，您最多有min（n_样本，n_功能）有意义的PC组件/尺寸

相关问题更多 >

编程相关推荐

热门问题

热门文章