回答思路
在统计学中,主成分分析(PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 PCA的算法步骤如下: 设有m条n维数据。
1、将原始数据按列组成n行m列矩阵X
2、将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3、求出协方差矩阵
4、求出协方差矩阵的特征值及对应的特征向量
5、将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P Y=PX即为降维到k维后的数据 答案解析 这道题主要考察PCA主成分分析,只要将主成分分析的基本概念描述出来即可