12章多重线性回归与相关
一、自变量筛选的标准与原则
2.残差均方缩小与调整决定系数增大 MS残=SS残/(n-p-1) MS残缩小的准则可以看做是在SS残缩小准则的基础上 增加了(n-p-1)-1因子,该因子随模型中自变量个数 p的增加而增加,体现了对模型中自变量个数增加而 施加的“惩罚”。 调整决定系数Ra2越大越好,与MS残等价。
包含汽车流量、气温、气湿与风速这四个自变量的回
归方程可解释交通点空气NO浓度变异性的78.74%
2.复相关系数R (multiple correlation coefficient)
定义为确定系数的算术平方根,
R SS回 SS总
表示变量Y与k个自变量的线性相关的密切程度。 对本例R=0.8837,表示交通点空气NO浓度与汽车流量、
表12-5 空气中NO浓度与各自变量的相关系数与偏相关系数
自变量 车流X1 相关系数 0.80800 偏相关系数 0.6920 偏相关系数P值 0.0005
气温X2
气湿X3 风速X4
0.1724
0.2754 -0.67957
0.47670
-0.00218 -0.59275
0.0289
0.9925 0.0046
第十二章
第一节 第二节 第三节 第四节
多重线性回归与相关
多重线性回归的概念与统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选
一、整体回归效应的假设检验(方差分析)
表12-2 检验回归方程整体意义的方差分析表
变异来源 回归模型
残差 总变异
SS
0.0639 6 0.0172 7 0.0812 3
风速
(X4) 2.00 2.40 3.00 1.00 2.80 1.45 1.50 1.50 0.90 0.65 1.83 2.00
一氧化氮
(Y) 0.005 0.011 0.003 0.140 0.039 0.059 0.087 0.039 0.222 0.145 0.029 0.099
此型资料有一个应变量与多个自变量(k个自
符合准则的程度,从中选择出一个或几个最优的
回归,称为“最优子集回归”。
适合于自变量个数不太多的情况
2.前进法(forward selection)又称为向前选择法
1.假设
H 0 : 0, H1 : 0, 0.05
bi 0 tbi , 1 Sbi
2.检验统计量
利用软件包对例12-1的四个偏回归系数进行t
检验与标准化偏回归系数的结果如表13-3所示。
表12-3
变量
截距 X1 自由 度 1 1
偏回归系数t检验与标准化偏回归系数的结果
df 4
19 23
MS 0.01599 0.000909 03
F
P
<0.00 17.59 1
SS回:在Y的总变异中由于X与Y的直线关系而使Y变异减 少的部分。SS回越大说明回归效果越好。 SS残:X对Y的线性影响之外的一切因素对Y的变异的作
用。SS残越小,说明直线回归的估计误差越小。
二、偏回归系数i的假设检验
200
ÀÀÀÀÀ(À)X1 ú À
3000
ÀÀ(0C)X3
R23=0.97617
2000
P=0.5509
扣除气温
ÓÓÓÓ Ó ÓÓÓÓ(Ó)X2
1000
r23=0.97617
0 28 30 32 34 36 38 40
ÀÀ(0C)X3
其实,冷饮销售量和气温正相关,游泳
人数和气温也正相关,冷饮销售量和游泳人
第十二章 关
第一节 第二节 第三节 第四节
多重线性回归与相
多重线性回归的概念与统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选
一、数据与模型
例12-1 为了研究空气中一氧化氮(NO)的浓度与汽车
流量等因素的关系,有人测定了某城市交通点在单
位时间内过往的汽车数、气温、空气湿度、风速及
车流
(X1) 948 1440 1084 1844 1116 1656 1536 960 1784 1496 1060 1436
气温
(X2) 22.5 21.5 28.5 26.0 35.0 20.0 23.0 24.8 23.3 27.0 26.0 28.0
气湿
(X3) 69 79 59 73 92 83 57 67 83 65 58 687
0.27274
-0.00110 -0.4470
第十二章
第一节 第二节 第三节 第四节
多重线性回归与相关
多重线性回归的概念与统计描述 多重线性回归的假设检验 复相关系数与偏相关系数 自变量筛选
一、决定系数、复相关系数与调整确定系数
1.决定系数R2(coefficient
of determination),或确定系数
气湿
(X3) 80 57 64 84 72 76 69 77 58 65 83 68
风速
(X4) 0.45 0.50 1.50 0.40 0.90 0.80 1.80 0.60 1.70 0.65 0.40 2.00
一氧化氮
(Y) 0.066 0.076 0.001 0.170 0.156 0.120 0.040 0.120 0.100 0.126 0.135 0.099
k 1 R2 2 R R 2 n k 1
对于本例,R2=0.7874,n=23,k=4,则调整R2为:
41 0.7874 R 0.7874 23 4 1 0.7874 0.0445789 0.7426
2
二、偏相关系数 表12-4 冷饮销售量、游泳人数与气温数据
回归平方和在总平方和中所占的百分比 R2=SS回/SS总 用于反映线性回归模型能在多大程度上解释反应变量Y 的变异性。
R2取值范围为0-1之间,越接近1,表示所选用线
性回归模型很好地拟合了样本数据。
R2直接反映了回归方程中所有自变量解释反应变
量Y总变异的百分比,或者说R2可以解释为回归方程使 反应变量Y的总变异减少的百分比。
¨ ÓÓÓÓÓÓY
.02
ÀÀÀÀX1 ÷
ÀÀX2
.10 .08 .06 .04 .02
¨ ÀÀY
.10 .08 .06
¨ ÓÓÓÓÓÓY
ÓÓÓÓ¨Ó ÓÓÓÓÓÓY
.04 .02
0.00 -.02 -.04 -.06 -.08 -1.0
-10
0
10
20
30
-.5
0.0
.5
1.0
1.5
ÀÀX3
À ·ÀX4
异度,所以不能直接用普通偏回归系数的数值大小来反 映各个自变量对反应变量Y的贡献大小。将原始观测数 据进行标准化转换,即: X X *
Xi
i
i
然后用标准化数据进行回归模型拟合,此时所获得的回 归系数,记为P1,P2,P3,…,Pk,标准化偏回归系数 (standardized partial regression coefficient)又 称通径系数(path coefficient)。标准化偏回归系数Pi 较大的自变量在数值上对反应变量Y的贡献较大。
冷饮销 售量X1 267 397 451 528 618 655 游泳人 数X2 722 814 924 1066 1253 1369 气温 (0C) X3 29 30 31 32 33 34 冷饮销 售量X1 690 740 780 889 996 游泳人 数X2 1593 1761 1931 2231 2749 气温 (0C) X3 35 36 37 38 39
一、自变量筛选的标准与原则
3.Cp统计量
MS残p C p (n p 1) 2 1 p 1 若含有p个自变量的模型是合适的,则其残差
均方MS残p接近全部变量的均方,Cp接近p+1
二、自变量筛选的常用的方法
1.所有可能自变量子集选择
根据某种自变量选择准则,通过比较各子集
对总体确定系数R2=0的假设检验完全等价于对回 归方程的整体方差分析,因为
MS回 F MS残 SS残 SS回 k
2
R2
n k 1
1 R
k
n k 1
SS
对例12-1,由方差分析表可得:SS回=0.06396
残=0.01727
SS总=0.08123 R2=0.7874.由此说明,用
气温、气湿与风速等四个变量的复相关系数为0.8837。
3.调整复相关系数(Adjusted R-Square) R2 当回归方程中包含有很多自变量,即使其中有一
些自变量对解释反应变量变异的贡献极小,随回归方
程自变量个数的增加,R2表现只增不减,这是复相关系 数的缺点。
调整复相关系数R2,定义为
.2
.08 .06
.04 .1
0.0
-.1 -600
0.00 -.02 -.04 -.06 -20
图12-3 汽车污染数据的反应变量与四个自变量的偏相关散点图
ÓÓÓÓ¨Ó ÓÓÓÓÓÓY
-400 -200 0 200 400
0.00 -.02
-.04 -.06 -6 -4 -2 0 2 4 6 8
3000
R12=0.97239
1200
R13=0.98909
1000
Ó ú ÓÓÓÓÓ(Ó)X1
ÓÓÓÓ Ó ÓÓÓÓ(Ó)X2
2000
800
600
1000
r12=0.97239
0 200 400 600 800 1000 1200
400
r13=0.9809
28 30 32 34 36 38 40