机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)

2019年7月6日 340次阅读来源: 数据搬瓦工

主成分分析(PCA, Principal Component Analysis)

主成分分析算法(PCA)是最流行的降维（降低维度）的算法。降维就是将高维特征 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ 映射到低维度特征 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ ，其中 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ 。

降维的好处主要有 3 个：

数据压缩，减小数据所占内存或者硬盘空间；
降低运算量，提高机器学习的速度；
将数据维度降至三维或者二维，可以对数据可视化。

PCA 工作内容

PCA 所做的就是找到一个低维( $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ )子空间对数据进行投影，然后数据由该数据在投影空间的投影向量表示，同时 PCA 会最小化投影误差。其中，「投影误差」是所有的数据点到该投影线的距离之和。

用公式解释「投影误差」，假设 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ 投影到低维子空间中的点 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ ，那么「投影误差」 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$

《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》二维降至一维空间

以二维降至一维空间为例，PCA 所做的是找到一条投影线，使得所有的数据点到该投影线的距离之和最小。最后，每个样本表示从二维 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ 变为一维 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ 。

PCA 计算

Step1：数据预处理，对对 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ 进行特征缩放 / 均值归一化；

Step2：计算协方差矩阵； $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$

Step3：计算协方差矩阵的特征向量，其中 svd()函数是奇异值分解， $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ ； $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$

Step4：取矩阵 U 的前 k 列并计算 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ 来表示 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ ，其中 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ 。
$《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$

用下图总结一下整个计算过程：

《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》 PCA 计算过程

下面用 MATLAB 代码表示 PCA 计算过程：

Sigma = (1/m) * X' * X; % compute the covariance matrix
[U,S,V] = svd(Sigma);   % compute our projected directions
Ureduce = U(:,1:k);     % take the first k directions
Z = X * Ureduce;        % compute the projected data points

涉及数学知识比较难，这里就暂时不解释原理。

主成分的数量 k 值的选取

如何选择主成分的数量 k ？

《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》 k 值选取公式

通过上图的公式选取出来的 k 值，它保留 99% 差异性，即降维后依旧保持着原本维度数据 99% 的变化情况，因此这样的降维改变并不会有多少影响。就分类的精确度而言，数据降维后对学习算法几乎没有什么影响。

一般，k 值选取是保留 99% 差异性，还有一个常用的是保留 95%、90% 差异性。

但如果实际上，一个一个遍历 k 值并重新计算上述公式，这种选取方法比较慢且运算量大。那么有没有一种更好的方法呢？

当然有啦！PCA 计算过程 Step3，得到矩阵 S，利用矩阵 S 来选择 k 值。通过遍历 k 值，选取满足 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ 的 k 值。这种方法还不需要重新计算矩阵 S。

《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》 K 值选取的实际算法

降维后恢复

如果我们使用PCA来压缩我们的数据，那么，如何解压我们的数据且回到原始数据？

《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》降维后恢复

需要注意的是， $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ 就是之前所说的原始点投影在投影空间上的点，故此 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ 与 $《机器学习入门笔记系列（11） | 降维算法--主成分分析算法(PCA)》$ 有一定的误差。