当前位置：文档之家› 统计学11 多元线性回归分析课件

统计学11 多元线性回归分析课件

coefficient），表示当方程中其他自变量保持不变时，自变量Xj 变化一个单位，反应变量Y平均变化的单位数；
3、多重线性回归的前提条件：
① 线性 ② 独立性 ③ 正态性 ④ 方差齐性
LINE
参数估计
最小二乘法
基本原理是：利用观察或收集到的因变量和自变量的一组数据建立一个因变量关于自变量的线性函数模型，使得这个模型的估计值和观察值之间的离差平方和尽可能地小，即残差平方和最小。
……
3.37 1.20 8.61 6.45
糖化血红蛋白(%)
X4
8.2 6.9 10.8 8.3 7.5 13.6 8.5
……
9.8 10.5 6.4 9.6
血糖 (mmol/L)
Y
11.2 8.8 12.3 11.6 13.4 18.3 11.1
13.2 20.0 13.3 10.4
2、多重线性回归模型
♦ 局限性：不一定能保证“最优”（后续变量的引入会使得先进入方程的自变量变得不重要）。
③ Backward：向后剔除法
♦ 首先建立包含所有p个自变量的全模型，然后逐个计算出剔除某一变量后仅包含p-1个自变量的p个模型，同时计算剔除变量后所致残差平方和增量的F值，然后将p个F值的最小值与预先指定的剔除临界 Fout相比较，若最小的F<Fout，则将最小F值所对应的自变量从模型中剔除；然后在选中的含p-1个自变量的模型基础上，重复以上剔除自变量的计算、比较、剔除过程。每次循环剔除一个对模型贡献最可忽略的变量。如此反复，直到再没有任何变量的F值低于Fout为止。
多重线性回归分析
（Multiple Linear Regression）
123
多重线性回归模型是直线回归的扩展和延伸，其基本原理和直线回归相同。
内容提要
§ 1 多重线性回归模型简介 § 2 多重线性回归模型的参数估计 § 3 多重线性回归模型的假设检验 § 4 衡量模型优劣的标准 § 5 自变量的筛选 § 6 多重线性回归模型的应用 § 7 注意事项
Coefficientsa
Unstandardized Coefficients
Standardized Coefficients
Model
1
(Constant)
总胆固醇
甘油三酯
胰岛素
糖化血红蛋白
B 5.943 .142 .351 -.271 .638
a. Dependent Variable: 血糖
♦ 是选择变量的有效方法。
前进法、后退法、逐步回归法的侧重点不
同。
当自变量之间不存在简单线性相关关系时，三种方法计算结果是一致的。当自变量之间存在简单线性相关关系时，前进法侧重于向模型中引入单独作用较强的变量，后退法侧重于引入联合作用较强的变量，逐步回归法则介于两者之间。
Std. Error 2.829 .366 .204 .121 .243
Beta
.078 .309 -.339 .398
t 2.101 .390 1.721 -2.229 2.623
Sig. .047 .701 .099 .036 .016
衡量模型优劣的标准
1. 复相关系数 2. 确定系数 3. 调整确定系数 4. 剩余标准差
糖糖的的变变化化是是有有统统计计学学意意，检验某个总体偏回归系数等于0的假设，以判断是否相应的自变量对回归方程有贡献。
H0：βi = 0 H1：βi ≠ 0
α=0.05
计算检验统计量：
tbi
=
bi Sbi
Sbi：第i个偏回归系数的标准误
假设检验
1. 整体回归效应（即回归方程）的假设检验（方差分析）
2. 偏回归系数（即各自变量）的假设检
验（t 检验）
1、整体回归效应的假设检验
H0：β0 = β1 = β2 = β4 = 0 H1：回归方程有意义 α =0.05
方法：方差分析
ANOVAb
Model
Sum of Squares df Mean Square F
复相关系数R：表示模型中所有自变量与反应变量
之间线性相关的密切程度。实际上是实测值与估计值y hat 的简单相关系数。取值范围为（ 0 ， 1 ），没有负值。是确定系数的算术平方根，即
R = SSR SST
缺点：增加无统计学意义的自变量，R值仍增大。
当回归方程中包含有很多自变量，即使其中有一些自变量对解释变量变异的贡献很小，随着回归方程的自变量的增加，R表现为只增不减。这是复相关系数的缺点。
Model Summary
Model 1
R .775a
R Square .601
Adjusted R Square .528
Std. Error of the Estimate
2.0095
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇
1、复相关系数
Std. Error 2.829 .366 .204 .121 .243
Beta
.078 .309 -.339 .398
a. Dependent Variable: 血糖
t 2.101 .390 1.721 -2.229 2.623
Sig. .047 .701 .099 .036 .016
问题：各自变量对反应变量的影响强度怎么比较？
自变量筛选
为确保回归方程包含所有对反应变量有较大影响的自变量，而把对反应变量关系不大或可有可无的自变量排除在方程之外，应该进行自变量的选择。回归模型的正确选择在根本上依赖于专业知识。
1. 自变量筛选的标准与原则 2. 自变量筛选的常用方法
1、自变量筛选的标准与原则
① 残差平方和SSE缩小与确定系数增大 ② 残差均方缩小与调整确定系数增大 ③ Cp统计量
Sig.
1
Regression S13S3R.711
υ回归4
33.428
8.278
.000a
Residual Total
S8S8E.841 S22S2T.552
υ残差22 υ总26
4.038
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇
FF＝＝MMSS回回归归
2、确定系数
复相关系数的平方称为确定系数或决定系数，记为R2，用以反映线性回归模型能在多大程度上解释反应变量Y的变异性。
R2 = SSR SST
检验回归方程整体意义的方差分析表
变异来源自由度 SS
MS
F
P
回归
4 0.06396 0.01599 17.59 <0.0001
残差
19 0.01727 0.00090903
总变异 23 0.08123
R2=0.06396/0.08123=0.7874
确定系数的取值范围为0≤R2≤1。直接反映了回归方程中所有自变量解释了反应变量总变异的百分比。其值越接近于1，表示回归模型的拟合效果越好。
3、调整的确定系数
调整的R2：记为
Ra2
=
R2
−
k(1− R2 ) n − k −1
优优点点：：对对回回归归方方程程中中自自变变量量个个数数实实施施惩惩罚罚，，较较大大的的kk会会使使RR22降降低低。。
4、剩余标准差
♦ 是误差均方MSE的算术平方根，就是残差的标准差。
♦ 反映了用建立的模型去预测因变量时的精度。其值越小，说明模型拟合的效果越好。
♦ 优点：同调整的确定系数
因为k个自变量都具有各自的计量单位以及不
同的变异度，所以不能直接用普通偏回归系数的数值大小来反映方程中各个自变量对反
应变量Y的贡献大小。
怎么办？
对原始数据进行标准化变换：
X
* i
=
Xi − Xi Si
用标准化的数据进行回归模型的拟合，得到的回归系数，称为标准化偏回归系数。
意义：通常在有统计学意义的前提下，该系数
Std. Error 2.829 .366 .204 .121 .243
Beta
.078 .309 -.339 .398
a. Dependent Variable: 血糖
t 2.101 .390 1.721 -2.229 2.623
Sig. .047 .701 .099 .036 .016
问题：各自变量对反应变量的影响强度怎么比较？
X1
5.68 3.79 6.02 4.85 4.60 6.05 4.90 …… 7.98 11.54 5.84 3.84
甘油三脂 (mmol/L)
X2
1.90 1.64 3.56 1.07 2.32 0.64 8.50
……
7.92 10.89 0.92 1.20
胰岛素 (μU/ml)
X3
4.53 7.32 6.95 5.88 4.05 1.42 12.60
2、自变量筛选的常用方法
① 所有可能自变量子集选择 ② Forward：前进法（向前选择法） ③ Backward：后退法（向后剔除法） ④ Stepwise：逐步回归法
无论采用何种选择自变量的方法，都需要对不同的自变量子集进行比较，计算量很大。Æ 借助统计软件
① 所有可能自变量子集选择
♦ p个变量，所有可能的自变量子集有2p个。 ♦ 根据某种变量的选择准则，通过比较各子
♦ 特点：考虑了自变量的组合作用，选中的自变量数目一般会比前进法多；当自变量数目较多或某些自变量高度相关时，可能得不出正确的结果，前进法可以自动去掉高度相关的自变量。
④ 逐步选择法
♦ 是在前述两种方法基础上进行双向筛选的过程，本质上前进法。即在逐步选择的过程中，把经F检验有意义的变量引入方程后，又在对已在方程中的自变量进行一次关于剔除的F检验，保留有统计学意义的变量，而剔除无统计学意义的变量。反复进行引入、剔除过程，直到既没有变量被引入，也没有变量被剔除为止。

e商务文档

统计学11 多元线性回归分析课件

相关文档推荐：