实验八:主成分回归
实验题目:对例5、5的Hald水泥问题用主成分方法建立模型,并与其她方法的结果进行比较。
例5、5如下:本例为回归经典的Hald水泥问题。
某种水泥在凝固时放出的热量y(卡/克,cal/g)与水泥中的四种化学成分的含量(%)有关,这四种化学成分分别就是x1铝酸三钙(3CaO、Al2O3),x2硅酸三钙(3CaO、SiO2),x3铁铝酸四钙(4CaO、Al2O3、Fe2O3),x4硅酸三钙(2CaO、SiO2)。
现观测到13组数据,如表5-3所示。
实验目的:
SPSS输出结果及答案:
一、主成分法:
多重共线性诊断:
N 13 13 13 13 13
**、在、01 水平(双侧)上显著相关。
由表可知,x1,x2,x4的相关性都比较大,较接近,所以存在多重共线性
主成分回归:
解释的总方差
成份
初始特征值提取平方与载入
合计方差的 % 累积 % 合计方差的 % 累积 %
1 2、236 55、893 55、893 2、236 55、893 55、893
2 1、576 39、402 95、294 1、576 39、402 95、294
3 、187 4、665 99、959 、187 4、665 99、959
4 、002 、041 100、000 、002 、041 100、000
提取方法:主成份分析。
输出结果显示有四个特征根,最大的就是λ1=2、236,最小的就是λ4=0、002。
方差百分比显示第一个主成分Factor1的方差百分比近56%的信息量;前两个主成
分累计包含近95、3%的信息量。
因此取两个主成分就已经足够。
由于前两个主成分的方差累计已经达到95、3%,故只保留前两个主成分。
成份矩阵a
成份
1 2 3 4
x1 、712 -、639 、292 、010
x2 、843 、520 -、136 、026
x3 -、589 、759 、275 、011
x4 -、819 -、566 -、084 、027
提取方法:主成分
a.已提取了 4 个成份。
由解释的总方差表中累计贡献性知,f1与f2的累计贡献性就在85%~95%之间。
所以主成分取f1,f2。
得到因子得分的数值,并对其进行处理:sqrt(2、236)* FAD1_1, sqrt(1、576)* FAD2_1可以得出主成分表(f1 f2)。
对f1 f2进行普通最小二乘线性回归
f1=-0、643+0、081x1+0、036x2-0、062x3-0、033x4
对f2与x1x2x3x4进行回归
a.因变量: f2
f2=-0、938-0、087x1+0、027x2+0、094x3-0、027x4
所以还原后的主成分回归方程为:
^y=88、951624+0、789567x1+0、359127x2-0、600934x3-0、329481x4
从主成分法得出的方程中我们可以瞧出某种水泥在凝固时放出的热量与铝酸三钙,硅酸三钙成正比,与铝酸四钙与硅酸二钙成反比,且当该水泥放出1单位的热量时,需要消耗0、789567g 的铝酸三钙与0、359127g的硅酸三钙;当该水泥吸收1单位的热量时,需要消耗0、600934g
的铝酸四钙与0、329481g的硅酸二钙。
二.岭回归法
由系数表中的方差扩大因子VIF可以初步瞧出直接建立的线性模型具有严重的共线性,所以我们直接用岭回归方法进行处理,与再与主成分法进行比较。
岭回归
INCLUDE 'C:\Program Files\IBM\SPSS\Statistics\19\Samples\English\RIDGE regression、sps'、RIDGEREG enter x1 x2 x3 x4
/dep=y
R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K
K RSQ x1 x2 x3 x4
______ ______ ________ ________ ________ ________
、00000 、98238 、606512 、527706 、043390 -、160287
、05000 、98092 、465987 、298422 -、092800 -、394132
、10000 、97829 、429975 、299810 -、115702 -、382409
、15000 、97492 、403545 、300180 -、129867 -、370747
、20000 、97105 、382726 、299130 -、139136 -、360181
、25000 、96676 、365601 、297070 -、145317 -、350594
、30000 、96212 、351071 、294335 -、149432 -、341806
、35000 、95717 、338452 、291156 -、152107 -、333674
、40000 、95195 、327295 、287687 -、153747 -、326089
、45000 、94649 、317289 、284036 -、154628 -、318970
、50000 、94082 、308211 、280279 -、154942 -、312254
、55000 、93497 、299900 、276467 -、154827 -、305892
、60000 、92897 、292231 、272638 -、154384 -、299846
、65000 、92284 、285109 、268820 -、153688 -、294083
、70000 、91660 、278460 、265032 -、152797 -、288577
、75000 、91027 、272222 、261287 -、151756 -、283306
、80000 、90386 、266349 、257597 -、150598 -、278251
、85000 、89740 、260798 、253968 -、149351 -、273396
、90000 、89089 、255537 、250406 -、148037 -、268726
、95000 、88436 、250537 、246913 -、146671 -、264228
1、0000 、87780 、245775 、243491 -、145269 -、259892
由上述的岭迹图可以瞧出,所有的回归系数的岭迹线的稳定性较强,整个系统呈现比较平稳的现象,所以我们可以对最小二乘有信心,且x1,x2的岭迹线一直在零的上,对y产生正影响,而x3,x4系数的岭迹线一直小于零,所以对y产生负影响。
再做岭回归:
当岭参数k=0、2时,4个自变量的岭回归系数变化幅度较小,此时逐渐稳定,所以我们给定
k=0、2,再做岭回归
Run MATRIX procedure:
****** Ridge Regression with k = 0、2 ******
Mult R 、976585082
RSquare 、953718422
Adj RSqu 、944462107
SE 3、545275735
ANOVA table
df SS MS
Regress 2、000 2590、073 1295、037
Residual 10、000 125、690 12、569
F value Sig F
103、0343460 、0000002
--------------Variables in the Equation----------------
B SE(B) Beta B/SE(B)
x1 1、2516409 、1468176 、4894165 8、5251441
x4 -、5251646 、0515969 -、5843168 -10、1782125
Constant 101、8388483 2、2617303 、0000000 45、0269638
------ END MATRIX -----
由上述输出结果可以得到岭回归建立的方程为:
y=101、8388483+1、2516409x1-0、5251646x4
从岭回归法得出的方程中我们可以瞧出某种水泥在凝固时放出的热量与铝酸三钙,硅酸三钙成正比,与铝酸四钙与硅酸二钙成反比,且当该水泥放出1单位的热量时,需要消耗1、2516409g 的铝酸三钙与0、5251646g的硅酸三钙;当该水泥吸收热量时,需要消耗铝酸四钙与硅酸二钙。
(3)比较:岭回归后建立的方程跟主成分回归法建立的方程保留的系数相同,且得出的系数符号相同,大小相近,即得出的y与x1,x2,x3,x4关系也相同,所以可知主成分法得出的回归方程也解决了共线性问题。