Skip to content

主成分分析

约 343 个字 预计阅读时间 1 分钟

定义

主成分分析利用正交变换把由线性相关量表示的观测数据转换成少数几个由线性无关量表示的数据,线性无关的变量称为主成分,主要用于发现数据中的基本结构,即数据中变量之间的关系。

策略

在主成分分析中,首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1。之后对数据进行正交变换,原来由线性相关变量表示的数据,通过正交变换变成由若干个线性无关的新变量表示的数据。几何解释为样本点可以由实数空间中的点表示,空间中的一个坐标轴表示一个变量,规范化处理后的数据在原点附近。对原坐标系中的数据进行主成分分析等价于进行坐标系旋转的变换,将数据投影到新的坐标轴上;新的坐标轴的第一坐标轴、第二坐标轴分别表示第一主成分和第二主成分,数据在每一轴上坐标值的方差表示相应变量的方差,并且这个坐标系,是所有坐标系中,坐标轴上方差和最大的。