实验六主成分分析一、实验目的通过本次实验,掌握SPSS及ENVI的主成分分析方法。
二、有关概念1.主成分分析的概念主成分分析(又称因子分析),是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法。
代表各类信息的综合指标就称为因子或主成份。
主成分分析的数学模型可写为:=绚內 + a n x2 + 5x3 + …+ a lm x mS = "21X] + Cl22X2 + Cl23X3 + ・・・ + a2m X mZ3 =勺內+5小+如勺+・・・ + %〃S = + a n2x2 + 心3X3 + ・・• +其中,X1.X2. x3. x4— x B为原始变量;Zi. z2. z3, z4—z n为主成份,且有mNn。
写成矩阵形式为:Z=AX O Z为主成份向量,A为主成份变换矩阵,X为原始变量向量。
主成份分析的目的是把系数矩阵A求出,主成份Zl、Z2、Z3…在总方差中所占比重依次递减。
从理论上讲呼n即有多少原始变量就有多少主成份,但实际上前面几个主成份集中了大部分方差,因此取主成份数目远远小于原始变量的数目,但信息损失很小。
因子分析的一个重要目的还在于对原始变量进行分门别类的综合评价。
如果因子分析结果保证了因子之间的正交性(不相关)但对因子不易命名,还可以通过对因子模型的旋转变换使公因子负荷系数向更大(向1)或更小(向0)方向变化,使得对公因子的命名和解释变得更加容易。
进行正交变换可以保证变换后各因子仍正交,这是比较理想的情况。
如果经过正交变换后对公因子仍然不易解释,也可进行斜交旋转。
2.因子提取方法SPSS提供的因子提取方法有:①Principal components主成份法。
该方法假设变量是因子的纯线性组合。
这是SPSS 最通用的因子提取方法,故因子分析有时又称为主成份分析。
©Unweighted least square不加权最小平方法。
该方法使观测的和再生的相关阵之差的平方最小。
©Generalized least square用变量的单值加权,使观测的和再生的相关阵之差的平方最小。
©Maximum likelihood最大似然法。
此方法不要求多元正态分布。
给出参数估计,如果样本来自多元正态总体它们与原始变量的相关阵极为相似。
⑤Principal axis factoring使用多元相关的平方作为对公因子方差的初始估计。
⑥Alpha factoring a因子提取法3.因子旋转方法SPSS提供的因子旋转方法有:®None不进行旋转。
此为系统默认的选择项。
©Varimax方差最大旋转。
③Equamax平均正交旋转。
④Quartmax四次方最大正交旋转。
⑤Direct Oblimin斜交旋转,指定此项可以在下面的矩形框中键入Delta 值,该值应该在0〜-1之间,是因子映象自相关的围。
0值产生最高相关因子,大负数产生旋转的结果与正交接近。
三、实验容1.在市宝山、吴淞地区的环境质量综合评价中,对20个监测点的大气、地面水和土壤要素进行监测,得到三种要素的实测超标倍数数据。
本实验对这批资料进行主成份分析,为进一步进行环境综合分析作准备。
2.对2009年钱塘江湾TM影像进行主成分分析四、实验步骤(一)SPSS主成分分析1.主成分分析的基本步骤(1)打开"d:\SPSS实习\主成份分析.sav”文件,选择Analyze菜单下的Data Reduction的Factor项,展开主对话框。
(2)在左侧源变量框中选取“大气超标倍数”、“地面水超标倍数”“土壤超标倍数”变量,进入Variables框中,作为参与因子分析的变量。
(3) 单击Descriptives 按钮,展开相应的子对话框。
在Statistics 组中选 取Initial solution 选择项,显示初始分析结果,给出原始变量的公因子方差、 与变量数目相等的因子、各因子的特征值、各因子特征占总方差的百分比以及累 积百分比。
在Correlation Matrix 组中选取Coefficients,显示原始变量相关系 数矩阵。
按Continue 返回主对话框。
Factor Analysis; DescriptivesStatisticshinivaLriat^ descripti 归 0 Ini ti al solutionLorrelati on Matrix[V] Coefficients Significance leve ; Ret ermin^xt triKFilO and BartletV s(Statistics 组中的Univariate descriptive 项要求给出各变量的均数和 标准差; Correlation Matrix 组提供以下几种检验变量是否适合作因子分析的方法: (4 )单击Extraction 按钮,展开相应的子对话框。
在Method 组中选择 Principal components 主成份法作为提取公因子的方法;在Extract 组中选取 Number of factors,并在其右侧框中输入“2”,指定提取公因子的数目为2; 在Display 组中选取L'nrotatedfactor solution 及Screen plot 选项,要求显示 未经旋转的因子提取结果因了载荷碎石图;Maximum iterations forContinuegprrlti In; □□Bof sphericityconvergence为因子分析收敛的最大迭代次数,系统默认为25;按Continue返回主对话框。
(5)单击Scores按钮,展开相应的子对话框。
选取Save as variables选项,即要求将因子得分作为新变量保存在数据文件中;在Method组选取Regression选项,即因子的得分用回归法,其因子得分的均值为0 (Regression Method: A method for estimating factor score coefficients. The scores that are produced have a mean of 0 and a variance equal to the squared multiple correlation between the estimated factor scores and the true factor values・ The scores may be correlated even when factors are orthogona 1・);选取Display factor score coeffient matrix,显示因子得分系数矩阵;按Continue 返回主对话框(6)单击0K,提交运行。
(7)输出结果分析。
2.主成分分析结果分析输出结果分析如F列表6. 1〜表6. 6所示:表6・1给出了三个原始变量的相关系数矩阵。
表6. 1Correlation Matrix表6.2第二列给出原始变量的公因子方差,三个均为1,三个变量的公因子方差之总和为3;第三列绐出的是使用两个因子代替原始变量后对各原始变量方差解释的百分比OExtraction Method: Principal Component Analysis.表6.3为方差解释表。
第一列为主成份名,第二、三、四列分别为第一.二、三主成份的特征值、方差百分比、方差累积百分比;后三列为选用两个主成份时的特征值、方差百分比.方差累积百分比。
表6.3Total Variance ExplainedExtraction Method: Principal Component Analysis.表6.4为因子矩阵表。
给岀原始变量对第一、第二主成份的贡献。
表6.4Component Matrix(a)Extraction Method: Principal Component Analysis・ a 2 components extracted・表6.5为因子得分系数矩阵。
给出第一、第二主成份与原始变量的关系。
根据该矩阵可以写出因子的表达式为:Factorl=0. 281*xl*+0. 484*x2*+0. 516*x3* Factor2=0. 955*xl*-0. 414*x2*-0. 131*x3*可以说,用这两个因子代替三个原始变量,可以概括原始变量所包含信息的87. 806%。
表6.5Component Score Coefficient MatrixExtraction Method: Principal Component Analysis・Component Scores・表6. 6给岀了两主成份间的协方差矩阵。
表6.6Component Score Covariance MatrixComponent Score Covariance MatrixExtract i on Method: Prin cipal Comp orient Analysis・Component Scores.图6. 1可以看岀因子1与因子2,以及因子2与因子3之间的特征值之差值比较大,可以初步得岀提取两个因子将能槪括绝大部分信息。
Scree PlotComponent Nucaber图6.1注:在“Factorl二0. 281*xl*+0. 484*x2*+0. 516*x3*及Factor2=0. 955*xl*-0. 414*x2*-0. 131*x3*,>中的xl* \x2*\x3*\变量是原始变量做了均值为0处理后的新变量。
(二)ENVI主成分分析1.打开LT51180392009262BJC00下的B1-6及B7,用Basic Tools下的Layer Stacking进行6波段叠合(如图6-2,拾取Import File选择叠合的波段,拾取Reorder Files对波段进行排序,建议按B1—B7顺序),并选择Output Result to F订e,将结果输出到QT River文件。
15118039.0392*******^70. TIF [Band 1] IS118039_039200g0919_ES50.TIF [Band 1] LSI 18039_0392*******_B40. TIF [Band 1] LSI 18039_0392*******^30, TIF [Band 1] I£1 18039j :i39200g0919 J :20. TIF [Band 1] Resampling Nearest NeighborOK I | Cancel |图6-22. 用ROI TOOLS 选择一块感兴趣区(建议选择地类比较全的部分),并将子 集存为subset 文件。