主成分分析(PCA)的数学原理

数据科学机器学习领域,经常遇到高维数据集,这些数据集包含大量的观测值和变量。对于这些数据集,常常需要将其降维,以便更有效地进行分析和可视化。降维技术之一就是主成分分析(PCA),它是一种将高维数据转换为低维数据的方法,同时尽可能保留原始数据的重要信息。

降维的概念

降维,顾名思义,就是减少数据的维度。在机器学习中,降维技术被用来将高维数据转换到低维空间,这样做的目的是为了简化模型,提高计算效率,并减少过拟合的风险。降维技术在处理具有大量观测值和变量的领域中尤为重要,例如图像识别、语音处理等。

在实际应用中,经常需要处理具有数百甚至数千维度的数据集。例如,MNIST手写数字识别数据集就包含了784个维度(28x28像素的图像)。通过PCA,可以将这些高维数据转换为二维或三维,以便于可视化和进一步分析。

主成分分析PCA

PCA是机器学习中常用的降维技术之一。它通过提取数据中最重要的主成分来降低数据的维度。主成分是与数据方差相关的向量,它代表了数据中变化最大的方向。

以MNIST数据集为例,可以将784维的数据转换为二维或三维,以便进行可视化。在本文中,将从可视化的角度详细探讨PCA的工作原理。

PCA的关键概念

在深入探讨PCA之前,需要了解一些关键概念,包括方差和协方差。

方差是衡量数据点分散程度的统计量,它反映了数据点相对于其均值的偏离程度。从数学角度来看,方差是随机变量与其均值的平方偏差的期望值。

协方差是衡量两个随机变量之间关系的方法,它描述了变量X和Y之间的线性关系。从数学上讲,协方差是两个随机变量的方差之和。

PCA的几何直觉

让通过一个例子来理解PCA降维中的应用。假设有一个二维数据集,包含两个特征F1(体重)和F2(身高)。目标是将这个二维数据集降维到一维。

在二维空间中,F1位于x轴,F2位于y轴,数据点Xi沿着这两个轴分布。可以看到,数据点在x轴上的分布范围较小,而在y轴上的分布范围较大。这意味着身高的方差大于体重的方差(F1(σ) > F2(σ))。

为了将二维数据降维到一维,需要选择一个特征来忽略。通常,会选择方差较大的特征,因为这样保留的信息更多。因此,选择F2,因为它的方差更大,保留了更多的信息。

标准化数据的处理

当处理标准化数据时,所有特征的方差都等于1,均值为0。这意味着需要找到一个新的方法来选择主成分。

在这种情况下,可以通过旋转坐标轴来找到具有最大方差的方向。例如,可以将F1旋转到F1',将F2旋转到F2'。发现F1'的方差远大于F2',因此选择F1'作为主成分,并忽略F2'。

目标是找到F1'的方向,使得Xi投影到F1'上的方差最大。可以通过单位向量U1来表示这个方向。

U1 = 单位向量 ||U1|| = 1

给定任意点Xi,其在U1上的投影Xi'可以通过以下公式计算:

Xi' = U1 * Xi / ||U1||

由于已经标准化了数据,均值为0,方差为1,因此均值向量为零向量。任务是找到U1,使得投影的方差最大。

为了找到方差最大的方向,需要使用特征值和特征向量的概念。特征值表示数据在特定方向上的方差,而特征向量则表示新数据点在该轴上的方向。

有一个d x d的对称矩阵,计算其特征值后,得到d个特征值和对应的特征向量。特征值最大的特征向量就是要找的主成分。

回顾步骤:

  1. 对数据集进行列标准化
  2. 从标准化数据构建协方差矩阵
  3. 找到特征值和特征向量
  4. 找到对应最大特征值的特征向量
  5. 选择方差最大的特征
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485