分类特征的主成分分析?

2024-04-28 06:44:00 发布

您现在位置:Python中文网/ 问答频道 /正文

根据我的理解,我认为主成分分析只能用于连续特征。但是,在试图了解onehot编码和label编码之间的区别时,通过以下链接中的一篇文章:

When to use One Hot Encoding vs LabelEncoder vs DictVectorizor?

指出了PCA后的一种热编码是一种很好的方法,这基本上意味着PCA应用于分类特征。 因此困惑,请建议我同样的。


Tags: to编码链接use文章特征onelabel
3条回答

MCA是一种已知的分类数据降维技术。在R语言中,有很多包可以使用MCA,甚至可以在混合上下文中与PCA混合使用。在python中也存在一个mca库。MCA应用的数学与PCA相似,事实上,法国统计学家曾说过,“数据分析就是找到正确的矩阵对角化。”

http://gastonsanchez.com/visually-enforced/how-to/2012/10/13/MCA-in-R/

基本上,主成分分析发现并消除了特征集上信息量较少(重复)的信息,降低了特征空间的维数。换句话说,假设一个N维超空间,PCA会发现数据变化最大的M(M<;N)特征。这样,数据可以表示为M维特征向量。从数学上讲,它是特征空间的一种特征值和特征向量的计算。

因此,特征是否连续并不重要。

PCA在许多应用中得到了广泛的应用。主要用于在分类/识别之前消除来自某些传感器或硬件的噪声、信息量较少的数据。

我不同意其他人的看法。

虽然可以对二进制数据(例如,一个热编码数据)使用PCA,但这并不意味着PCA是一件好事,否则它会很好地工作。

PCA被设计为连续变量。它试图最小化方差(=平方偏差)。当你有二进制变量的时候,平方偏差的概念就崩溃了。

所以是的,你可以用PCA。是的,你得到一个输出。它甚至是一个最小平方输出-这并不像主成分分析会对这样的数据进行分段。它是有效的,但是它的意义比你想要的要小得多;而且可能比频繁的模式挖掘没有意义。

相关问题 更多 >