是的,严格来说,PCA选择的是具有最大解释性方差的主成分,而不是单纯的方差最大。 在PCA中,主成分的目标是找到数据中能够解释最多方差的方向,即每个主成分方向上的方差越大,该主成分就能解释更多的数据变化。这就是为什么在PCA中,排序靠前的主成分被称为解释性方差最大的主成分。 具体而言: - 解释性方差:每个主成分的解释性方差表示该主成分对原始数据总方差的解释比例。解释性方差大的主成分说明它捕捉了数据中更重要的模式或信息。 - 累积解释方差:在降维时,我们通常会累积前几个主成分的解释性方差,并选择那些能解释绝大部分方差(例如85%-95%)的主成分。
所以,在PCA中我们选取的是能解释最多方差的主成分,而不仅仅是方差本身最大的方向。
通常会使用碎石图(Scree Plot)来判断需要保留的主成分个数。 在PCA中,碎石检验的过程如下: 1. 绘制碎石图:将主成分按照方差大小(或解释的方差比例)从大到小排序,并在图中依次绘制每个主成分的方差值。 2. 寻找拐点:碎石图通常会呈现一个“陡降—趋于平缓”的形状。前几个主成分的方差值较大,随后逐渐趋于平缓。碎石图中的拐点(方差值急剧下降的结束点)可以作为判定保留主成分个数的依据。 3. 选择主成分:在拐点前的主成分解释了大部分方差,之后的主成分贡献较少,因此一般会选择在拐点前的主成分。
这种方法直观且有效,适合用于数据降维时的主成分选择。当然,也可以结合累积解释方差的方法,确保保留的主成分解释了数据的足够多的信息(例如85%-95%)。