统计学中,主成分回归(PCR)是一种基于主成分分析(PCA)的回归分析方法。更确切地说,PCR用于估计标准线性回归模型中的未知参数。
PCR不是直接将因变量与解释变量进行回归,而是将解释变量的主成分作为回归量。一般只使用所有主成分的一个子集用于回归,因此PCR是一种正则化过程,也是一种收缩估计量。
方差更高的主成分(基于解释变量样本方差-协方差矩阵对应更大特征值的特征向量)被选为回归量。不过,要预测结果,低方差的主成分可能也很重要,在某些情况下甚至更重要。[1]
PCR的主要用途之一是克服多重共线性问题,这是说多个解释变量接近共线。[2]PCR可在回归步骤中排除一些低方差主成分,从而恰当地处理这种情况。另外,由于通常只对所有主成分的一个子集进行回归,PCR可大幅降低基础模型的参数数,从而降维。这在使用高维协变量时尤为有用。通过适当选择用于回归的主成分,PCR还可根据假定模型有效地预测输出。
原理
PCR法可总结为三步:
- 1.
对解释变量的测得设计矩阵进行PCA,得到主成分,然后(通常)根据一些适当标准,从获得的主成分中选择子集,供进一步使用。
- 2.
用普通最小二乘法,在选定主成分上线性回归输出的测得向量,得到估计回归系数向量(维数等于选定的主成分数)。
- 3.
用PCA负载(与选定主成分对应的特征向量)将该向量变换回实际协变量标量,得到最终PCR估计量(维数等于协变量总数),以估计表征原始模型的回归系数。
方法细节
数据表示:令
表示观测的输出,
表示测得协变量对应的设计矩阵,其中
、
表示测得样本的大小和协变量数量。
的每行
表示
维协变量的一组观测值,
的相应项表示相应的观测结果。
数据预处理:假设
及
的
列已经中心化,经验均值均为0。中心化这步至关重要(至少对
的列而言),因为PCR将对
使用的PCA on
对数据是否中心化十分敏感。
基础模型:在中心化之后,对
上的
的标准高斯-马尔可夫线性回归模型可表为:
其中
表示回归系数的未知参数向量,
表示随机误差向量,
、
则表示未知方差参数
目标:主要目标是根据数据,为参数
获得有效估计量
。一种常用方法是普通最小二乘法,假设
的列满秩,从而有
的无偏估计量:
。PCR是另一种估计
的方法。
PCA步骤:PCR首先要对中心化矩阵
进行PCA。为此,令
表示
的奇异值分解,其中
表示
的非负奇异值,
、
都是正交规范集向量,列向量分别表示
的左右奇异向量。
主成分:
给出了
的谱分解,其中
表示
的非负特征值(也叫做主值),
的列则表示对应的特征向量的正交规范集。接着,
、
分别表示第
个主成分与跟第
大的主成分值
相对应的第
个主成分方向(或PCA负载)。
衍生协变量:
,记
为
矩阵,其正交列包含
的前
列。记
为以前
个主成分为列的
矩阵。
可看做是用变换后的协变量
得到的设计矩阵,而非原始协变量
。
PCR估计量:记
表示 响应向量
在设计矩阵
上用普通最小二乘法得到的估计回归系数向量。那么,
都有基于前
个主成分的
的最终PCR估计量:
PCR估计量的基本特征与应用
两个基本性质
得到PCR估计量的拟合过程包括将响应向量在导出设计矩阵
上回归。后者
都有正交列,因为主成分互相正交。因此在回归中,对作为协变量的
个选定主成分联合进行多元线性回归,相当于对作为协变量的
个选定主成分分别进行独立单变量线性回归。
当选择所有主成分回归(
),PCR估计量便等同于普通最小二乘法估计量。因此
。从
和
是正交矩阵的观测事实,不难看出这点。
方差降低
,
的方差由下式给出:
![{\displaystyle \operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})=\sigma ^{2}\;V_{k}(W_{k}^{T}W_{k})^{-1}V_{k}^{T}=\sigma ^{2}\;V_{k}\;\operatorname {diag} \left(\lambda _{1}^{-1},\ldots ,\lambda _{k}^{-1}\right)V_{k}^{T}=\sigma ^{2}\sideset {}{}\sum _{j=1}^{k}{\frac {\mathbf {v} _{j}\mathbf {v} _{j}^{T}}{\lambda _{j}}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/93f98dcde9a70dca146afa10f99b90d60a435cc5)
特别地:
![{\displaystyle \operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{p})=\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })=\sigma ^{2}\sideset {}{}\sum _{j=1}^{p}{\frac {\mathbf {v} _{j}\mathbf {v} _{j}^{T}}{\lambda _{j}}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/edd9e659e89ebfebdc78a17b14fd81984ed9ffba)
因此
都有:
![{\displaystyle \operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})=\sigma ^{2}\sideset {}{}\sum _{j=k+1}^{p}{\frac {\mathbf {v} _{j}\mathbf {v} _{j}^{T}}{\lambda _{j}}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c5479d042c5ce12582a05179a050c659811b231a)
因此
都有:
![{\displaystyle \operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})\succeq 0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5c01f47db3ac8a544880f57fa781ece22306b458)
其中
,表明对称方阵
是非负定的。于是,与普通最小二乘估计的线性形式相比,任何给定PCR估计量的线性形式都有更低的方差。
解决多重共线性问题
多重共线性条件下,指多个协变量高度相关,因此可从其他协变量以非平凡的精度进行线性预测。因此,设计矩阵
与这些协变量对应的列趋于线性相关,于是
趋于秩亏,失去列满秩结构。更定量地讲,这时
的较小特征值会非常接近
。上述方差表达式表明,极小特征值对最小二乘估计量产生最大的方差扩大效应,因此在接近0时会严重破坏估计量的稳定性。这可以通过排除极小特征值对应的主成分得到的PCR估计,得到有效解决。
降维
PCR也可用于降维:记
为任意列正交的
矩阵。假设现在我们想通过秩
线性变换
(
)来近似每个协变量观测值
,那么可以证明
![{\displaystyle \sum _{i=1}^{n}\left\|\mathbf {x} _{i}-L_{k}\mathbf {z} _{i}\right\|^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bd12815d83bf8e27d2629cb756c843f9c0b662ff)
在
(前
个主成分方向为列组成的矩阵)和
(对应的
维衍生协变量)时取最小值。因此
维主成分提供了观测设计矩阵
的秩为
的最佳线性近似,对应的重建误差为
![{\displaystyle \sum _{i=1}^{n}\left\|\mathbf {x} _{i}-V_{k}\mathbf {x} _{i}^{k}\right\|^{2}={\begin{cases}\sum _{j=k+1}^{n}\lambda _{j}&1\leqslant k<p\\0&k=p\end{cases}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5dcad22b90f892ee69106ebe8b9f43c5b254bc94)
因此,可通过选择
值(即要使用的主成分数),通过对
的特征值累积和进行适当阈值处理,实现降维。由于较小特征值对累积和的贡献并不大,因此只要不超过所需的阈值限制,便可放弃相应的主成分。同样标准也可用于解决多重共线性问题:只要保持阈值限制,就可忽略较小特征值对应的主成分。
正则化效应
由于PCR估计量通常只使用一部分主成分进行回归,因此可视作某种正则化。更具体地说,
,PCR估计量
都可表示以下约束最小化问题的正则化解:
![{\displaystyle \min _{{\boldsymbol {\beta }}_{*}\in \mathbb {R} ^{p}}\left\|\mathbf {Y} -\mathbf {X} {\boldsymbol {\beta }}_{*}\right\|^{2}\quad {\text{ subject to }}\quad {\boldsymbol {\beta }}_{*}\perp \{\mathbf {v} _{k+1},\ldots ,\mathbf {v} _{p}\}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e11a13d3ef96f5fa4850eeb15f3a44f7377bec8a)
约束可等价写作
![{\displaystyle V_{(p-k)}^{T}{\boldsymbol {\beta }}_{*}=\mathbf {0} ,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5258923d36ba7863c6091e9b4e68c1799d929b9c)
其中
![{\displaystyle V_{(p-k)}=\left[\mathbf {v} _{k+1},\ldots ,\mathbf {v} _{p}\right]_{p\times (p-k)}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5fc1491586b4d3f4de9bb21381bd1dbb3e2c3766)
因此,当择一部分主成分回归时,所得PCR估计量是基于硬形式的正则化,将所得解约束在选定主成分方向的列空间,因此限制其与被排除方向正交。
一类正则化估计量中PCR的最优性
给定如上述的约束最小化问题,考虑下面的推广:
![{\displaystyle \min _{{\boldsymbol {\beta }}_{*}\in \mathbb {R} ^{p}}\|\mathbf {Y} -\mathbf {X} {\boldsymbol {\beta }}_{*}\|^{2}\quad {\text{ subject to }}\quad L_{(p-k)}^{T}{\boldsymbol {\beta }}_{*}=\mathbf {0} }](https://wikimedia.org/api/rest_v1/media/math/render/svg/cf75f0b6a6a795d842b5a089cccaf139d28c5371)
其中
表示任何阶为
的列满秩矩阵。令
表示对应的解,则
![{\displaystyle {\widehat {\boldsymbol {\beta }}}_{L}=\arg \min _{{\boldsymbol {\beta }}_{*}\in \mathbb {R} ^{p}}\|\mathbf {Y} -\mathbf {X} {\boldsymbol {\beta }}_{*}\|^{2}\quad {\text{ subject to }}\quad L_{(p-k)}^{T}{\boldsymbol {\beta }}_{*}=\mathbf {0} .}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3473d171f3766af19f5abd82505b06a1ee92a550)
则约束矩阵
的最优选择就是相应估计量
达到最小预测误差:[3]
![{\displaystyle L_{(p-k)}^{*}=V_{(p-k)}\Lambda _{(p-k)}^{1/2},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b5f5ac13ca9ad8b07ffc610f6c1a54160d3b5402)
其中
![{\displaystyle \Lambda _{(p-k)}^{1/2}=\operatorname {diag} \left(\lambda _{k+1}^{1/2},\ldots ,\lambda _{p}^{1/2}\right).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0106d66ae1b60c9e4cb49de9614d2bca76c82349)
很明显,由此得到的最优估计量
就是基于前
个主成分的PCR估计量
。
效率
由于普通最小二乘估计量对
无偏,所以有
![{\displaystyle \operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })=\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} }),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/439e47a55f6a1206f406ea2f77878569a62fea8c)
其中MSE表示均方误差。现在,若对某个
,我们还有
,那么对应的
也将是
的无偏估计量,就有
![{\displaystyle \operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})=\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{k}).}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0507fbf954dc429d03868f9fff7503908351800e)
我们已经知道
![{\displaystyle \forall j\in \{1,\ldots ,p\}:\quad \operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{j})\succeq 0,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/953b5d3e929cee4fb6c56d40868ec268e61f2204)
这就意味着对特定的
有:
![{\displaystyle \operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {MSE} ({\widehat {\boldsymbol {\beta }}}_{k})\succeq 0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0d4662b6bb3b1f155d1ee62b10afd53bd10ca399)
所以,用均方误差为标准的话,对应的
是比
更有效的
的估计量。另外,与
的相同线性形式相比,对应
的任何给定线性形式的均方误差也更小。
现在假设,对给定的
,那么对应的
对
就是有偏的。但由于
![{\displaystyle \forall k\in \{1,\ldots ,p\}:\quad \operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} })-\operatorname {Var} ({\widehat {\boldsymbol {\beta }}}_{k})\succeq 0,}](https://wikimedia.org/api/rest_v1/media/math/render/svg/90115f4855881f5f9a19dcdb342927f2d8e1339c)
仍然是可能的,尤其是当
使被排除主成分对应较小特征值时,从而导致较小的偏。
为确保PCR作为
估计值的效率与性能,Park (1981) [3]提出了以下用于回归的主成分选择标准:当且仅当
时,排除第
个主成分。在实际应用中,还需要估计未知的模型参数
与
。总的来说,可以用从原始完整模型得到的无约束最小二乘法进行估计。Park (1981)提供了一套稍加修改的估计值,可能更适合这一目的。[3]
与基于
特征值累积和的标准不同,上述标准可能更适合解决多重共线性问题与降维,实际上是试图让输出和协变量都参与到回归的主成分选择之中,以提高PCR估计值的预测与估计效率。其他目的相似的选择主成分方法基于交叉验证,或马洛斯CP值等。通常,主成分的选择还基于其与输出的相关程度。
PCR的收缩效应
总的来说,PCR本质上是收缩估计量,通常保留了高方差主成分(对应
的较大特征值)作为模型中的协变量,并舍弃剩余的低方差成分(对应
的较小特征值)。这就对低方差成分产生了分离收缩,清除了其在原始模型中的贡献。相对地,岭回归估计量则通过其构造中固有的正则化参数,产生平滑收缩。虽然它不会舍弃任何一个成分,但会以连续的方式对所有成分产生收缩效应,因此低方差成分的收缩程度高于高方差成分。Frank & Friedman (1993)[4]认为,就预测本身而言,与具有离散收缩效应的PCR估计量相比,岭估计量具有平滑收缩效应,可能是更好的选择。
此外,主成分是从
的特征分解中得到的,只涉及解释变量的观测值。因此,以这些主成分为协变量得到的PCR估计量不一定具有令人满意的预测性能。偏最小二乘回归(PLS)估计量与之比较相似,试图通过自身的构造解决这问题。PLS也用低维的衍生协变量,但是在输出和协变量中获得的。PCR在协变量空间中寻找高方差方向,而PLS则寻找对预测结果最有用的方向。
2006年,有人提出了经典PCR的一种变体,即监督PCR。[5]这种方法的精神与PLS类似,试图根据结果和协变量标准,获得低维衍生协变量。首先进行简单线性回归(单变量回归),其中结果向量分别对
个协变量逐一回归。然后,对某个
,选择与结果最相关的
个协变量(基于对应估计回归系数的显著程度)供进一步使用。然后进行上述传统PCR,但只基于与选定协变量观测值对应的
设计矩阵。使用的协变量数:
及随后使用的主成分数:
一般通过交叉验证选择。
核设置的推广
上述经典PCR法基于经典PCA,并考虑了根据协变量的线性回归结果预测模型。这方法可以很容易地推广到核机设置,即回归函数不一定是协变量的线性函数,而可以属于与任意(可以非线性)对称正定核有关的再⽣核希尔伯特空间。核函数选为线性核时便有线性回归模型,是这种设置的特例。
总的来说,在核机设置下,协变量向量首先被映射到所选核函数的高维(可能是无限维)特征空间中。这样得到的映射叫做特征映射,每个坐标(也叫做特征元)对应协变量的一个特征(无所谓线性与否)。然后,假设回归函数是这些特征元的线性组合,则核机设置依赖的回归模型本质上是线性的,但前提是预测量不再是原始协变量集,而由特征映射所得协变量的特征元的向量(可能是无限维)给出。
但核技巧实际上可以让我们在特征空间中操作,而无需明确计算特征映射。事实证明,只需计算观测协变量向量的特征映射之间的逐对内积即可,是由在相应协变量向量对上估值的核函数值简单给出的。因此,得到的逐对内积可用
对称非负定矩阵(也称为核矩阵)表示。
核机设置中的PCR现在可用以下方式实现:首先将核矩阵(如K)相对于特征空间适当中心化,再对中心化核矩阵(如K')进行核主成分分析,得到K'的特征分解。然后,核PCR(通常)会从获得的所有特征向量中(一般通过交叉验证)选择一子集,在其上进行结果向量的标准线性回归。估计的回归系数(维度与选定特征向量数相同)与响应所选特征向量一起用于预测未来的观测结果。机器学习中,这技巧也被称为“谱回归”。
显然,核PCR对K'的特征向量具有离散收缩,与前面讨论过的经典PCR对主成分的离散收缩十分相似。然而,与核相关的特征映射可能是无限维的,因此相应的主成分及其方向也可能是无限维的。所以,在核机设置下,这些量实际上往往难以处理。核PCR基本上是基于相关核矩阵的谱分解,以考虑等效的对偶表述,来解决这一问题。在线性回归模型下(对应于选择核函数为线性核),这相当于考虑对应的
核矩阵
的谱分解,然后将结果向量回归到得到的
的选定特征向量子集上。很容易看出,这等同于将结果向量回归到相应主成分上(这时是有限维),正如经典PCR定义的那样。因此,对线性核,基于对偶表示的核PCR完全等同于基于原始公式的经典PCR。然而,对任意(可能非线性)核,由于相关特征映射可能的无限维,这种原始公式可能会变得难以处理。因此,这时经典PCR实际上不可行,但基于对偶表示的核PCR仍有效,且在计算上可推广。
另见
参考文献
阅读更多