从零开始构建PCA

PCA construction from scratch

用逐步推导的方法深入理解主成分分析

热气球。图片由作者提供。

主成分分析(PCA)是一种常用的降维技术。尽管在数据科学家中已经是一个众所周知的话题,但对PCA的推导往往被忽视,这样会丧失有关数据性质、微积分、统计学和线性代数之间关系的宝贵洞察。

在本文中,我们将通过一个思维实验来推导PCA,从两个维度开始并扩展到任意维度。随着每个推导的进行,我们将看到看似不同的数学分支之间的和谐互动,最终得到一个优雅的坐标变换。这个推导将揭示PCA的机制,并揭示数学概念之间的令人着迷的相互关系。让我们踏上这个启发性的PCA探索之旅,领略其美学之处。

在二维中热身

作为生活在三维世界中的人类,我们通常可以理解二维的概念,这也是我们在本文中开始的地方。从两个维度开始可以简化我们的第一个思维实验,并帮助我们更好地理解问题的本质。

理论

我们有一个数据集,看起来像这样(注意每个特征应该被缩放为均值为0、方差为1):

(1)相关数据。图片由作者提供。

我们立即注意到这些数据位于由x1x2描述的坐标系中,并且这些变量是相关的。我们的目标是找到一个由数据的协方差结构指导的新坐标系。特别地,坐标系中的第一个基向量应该在将原始数据投影到它上面时解释大部分方差。

我们的首要任务是找到一个向量,使得当我们将原始数据投影到该向量上时,能够保留最大量的方差。换句话说,理想的向量指向最大方差的方向,如定义的…