分类特征的主成分分析？

网友

1楼 · 编辑于 2024-06-06 22:00:37

MCA是一种已知的分类数据降维技术。在R语言中，有很多包可以使用MCA，甚至可以在混合上下文中与PCA混合使用。在python中也存在一个mca库。MCA应用的数学与PCA相似，事实上，法国统计学家曾说过，“数据分析就是找到正确的矩阵对角化。”

网友

2楼 · 编辑于 2024-06-06 22:00:37

基本上，主成分分析发现并消除了特征集上信息量较少（重复）的信息，降低了特征空间的维数。换句话说，假设一个N维超空间，PCA会发现数据变化最大的M（M<；N）特征。这样，数据可以表示为M维特征向量。从数学上讲，它是特征空间的一种特征值和特征向量的计算。

因此，特征是否连续并不重要。

PCA在许多应用中得到了广泛的应用。主要用于在分类/识别之前消除来自某些传感器或硬件的噪声、信息量较少的数据。

网友

3楼 · 编辑于 2024-06-06 22:00:37

我不同意其他人的看法。

虽然可以对二进制数据（例如，一个热编码数据）使用PCA，但这并不意味着PCA是一件好事，否则它会很好地工作。

PCA被设计为连续变量。它试图最小化方差（=平方偏差）。当你有二进制变量的时候，平方偏差的概念就崩溃了。

所以是的，你可以用PCA。是的，你得到一个输出。它甚至是一个最小平方输出-这并不像主成分分析会对这样的数据进行分段。它是有效的，但是它的意义比你想要的要小得多；而且可能比频繁的模式挖掘没有意义。