当前位置：文档之家› 主成分分析原理及详解

主成分分析原理及详解

第14章主成分分析
1 概述
1.1 基本概念
1.1.1 定义
主成分分析是根据原始变量之间的相互关系，寻找一组由原变量组成、而彼此不相关的综合变量，从而浓缩原始数据信息、简化数据结构、压缩数据规模的一种统计方法。

1.1.2 举例
为什么叫主成分，下面通过一个例子来说明。

假定有N 个儿童的两个指标x1与x2，如身高和体重。

x1与x2有显著的相关性。

当N较大时，N观测量在平面上形成椭圆形的散点分布图，每一个坐标点即为个体x1与x2的取值，如果把通过该椭圆形的长轴取作新坐标轴的横轴Z1，在此轴的原点取一条垂直于Z1的直线定为新坐标轴的Z2，于是这N个点在新坐标轴上的坐标位置发生了改变；同时这N个点的性质也发生了改变，他们之间的关系不再是相关的。

很明显，在新坐标上Z1与N个点分布的长轴一致，反映了N个观测量个体间离差的大部分信息，若Z1反映了原始数据信息的80%，则Z2只反映总信息的20%。

这样新指标Z1称为原指标的第
358
一主成分，Z2称为原指标的第二主成分。

所以如果要研究N个对象的变异，可以只考虑Z1这一个指标代替原来的两个指标（x1与x2），这种做法符合PCA提出的基本要求，即减少指标的个数，又不损失或少损失原来指标提供的信息。

1.1.3 函数公式
通过数学的方法可以求出Z1和Z2与x1与x2之间的关系。

Z1=l11x1+ l12x2
Z2=l21x1+ l22x2
即新指标Z1和Z2是原指标x1与x2的线性函数。

在统计学上称为第一主成分和第二主成分。

若原变量有3个，且彼此相关，则N个对象在3维空间成椭圆球分布，见图14-1。

通过旋转和改变原点（坐标0点），就可以得到第一主成分、第二主成分和第三主成分。

如果第二主成分和第三主成分与第一主成高度相关，或者说第二主成分和第三主成分相对于第一主成分来说变异很小，即N个对象在新坐标的三维空间分布成一长杆状时，则只需用一个综合指标便能反映原始数据中3个变量的基本特征。

359
1.2 PCA满足条件
1.2.1 一般条件
一般来说，N个对象观察p个指标，可以得到N*p个数据（矩阵）。

只要p个指标之间存在有相关关系，就可以通过数学的方法找到一组新的指标，它们需要满足的条件如下。

（1）Z i是原指标的线性函数，且它们相互垂直；
（2）各个Z i互不相关；
（3）各个Z i加起来提供原指标所含的全部的信息，且Z1提供信息最多，Z2次之，依次类推。

1.2.2 PCA的一般步骤
（1）输入或打开数据文件；
（2）数据进行标准化处理；
（3）计算矩阵的相关系数；
（4）求相关矩阵的特征根λ1、λ2、λ3，并将它们按大小排序。

（5）求特征向量和各主成分；
（6）计算各主成分的贡献率；
（7）解释各主成分的含义
上述的步骤大部分由SPSS执行，用户需要选择观测对象、选择变量，收集数据，将数据输入SPSS程序，最后选择需要多少个主成分，解释各主成分的实际意义。

1.3 SPSS运行主要选择项
1.3.1 操作步骤
Analyzes/data reduction/factor/open factor analyzes/对话框，主要有5个对话框，下面简要介绍。

因子分析主对话框。

主要用来选择变量、选择输出结果内容和多少、选择PCA有关
360
数学处理如是否旋转，提取多少个因子数，是否保存各个因子得分等。

●Factor Analysis：因子分析；
●Descriptive：描述性统计选项；
●Extraction：提取因子选项；
●Rotation：旋转选择；
●Scores：因子得分选项；
●Option：其它选项。

1.3.2 主对话框
1.3.3 Descriptive对话框
●Statistics：统计数据
◆Univariate descriptive：单变量描述性统计；
◆Initial solution：初始解的统计量。

●Correlation matrix：相关矩阵
◆Coeffcients：相关系数矩阵。

◆Inverse：相关系数矩阵逆矩阵。

◆Significance levels：相关系数显著性水平。

◆Reproduced：再生相关矩阵。

给出因子分析后的相关矩阵。

361
1.3.4 Extraction method 提取公因子方法
●Method：方法
◆Principal components analyze：主成分分析
◆Unweight least squares：未加权最小二乘法
◆Generalized least squares：广义最小二乘法●Analysis：分析
◆Coeffcients matrix：相关系数矩阵。

◆Covariance matrix：协方差矩阵。

●Display：显示
362
◆Unrotated factor solution：非旋转因子解。

◆Screen plot of the eigenvalues：特征值碎石图。

●Extract：提取。

◆Eigenvalues over 1：系统默认值是1，表示提取特征值大于1的因子。

◆Number of factor 2：提取公因子的个数。

理论上有多少个因子
1.3.5 Rotation method 旋转方法对话框
●Method：方法
◆None：不进行旋转
◆Quartimax：四分位最大正交旋转
◆Varimax：方差最大正交旋转。

◆Equamax：相等最大正交旋转。

●Display：显示
◆Rotation solution：旋转解。

◆Loading plots：旋转因子空间的载荷图。

1.3.6 Scores 因子得分对话框
●Save as variables：将因子得分数据存入为新变量。

◆Regression：用回归法计算因子得分。

363
◆Bartlett：巴特尼特法计算因子得分。

◆Anderso-rubin，Anderso-rubin：法计算因子得分。

●Dispaly factor score coefficient matrx，显示因子得分系数矩阵。

1.3.7 Option对话框
●Missing Values：缺失值处理
●Exclude cases list wise：删除全部缺省值的个案。

●Exclude cases pair wise：成对删除含有缺省值的个案。

●Replace with mean：用均值替代缺省值。

●Coefficient display format 因子得分系数矩阵的显示格式。

●Sorted by size：按大小排列。

●回到主对话框上。

Variables：选择左边变量栏中的变量，用箭头键将要分析的变
量移入右边的变量栏。

准备分析。

例如移入身高、体重。

364
Selection Variable：选择变量窗口。

在该窗口输入变量名（case），则因子分析只对有关case对应的变量进行分析。

单击右边Value窗口打开Set Value对话框。

输入数值作为指定值。

单击continue，返回主对话框。

见下图
365。

e商务文档

主成分分析原理及详解

相关文档推荐：