当前位置:
文档之家› 统计学11 多元线性回归分析课件
统计学11 多元线性回归分析课件
coefficient),表示当方程中其他自变量保持不变时,自变量Xj 变化一个单位,反应变量Y平均变化的单位数;
3、多重线性回归的前提条件:
① 线性 ② 独立性 ③ 正态性 ④ 方差齐性
LINE
参数估计
最小二乘法
基本原理是:利用观察或收集到的因变量和自变 量的一组数据建立一个因变量关于自变量的线性 函数模型,使得这个模型的估计值和观察值之间 的离差平方和尽可能地小,即残差平方和最小。
……
3.37 1.20 8.61 6.45
糖化血 红蛋白(%)
X4
8.2 6.9 10.8 8.3 7.5 13.6 8.5
……
9.8 10.5 6.4 9.6
血糖 (mmol/L)
Y
11.2 8.8 12.3 11.6 13.4 18.3 11.1
13.2 20.0 13.3 10.4
2、多重线性回归模型
♦ 局限性:不一定能保证“最优”(后续变量的引入会使得先进入 方程的自变量变得不重要)。
③ Backward:向后剔除法
♦ 首先建立包含所有p个自变量的全模型,然后逐个计算出剔除某一变 量后仅包含p-1个自变量的p个模型,同时计算剔除变量后所致残差 平方和增量的F值,然后将p个F值的最小值与预先指定的剔除临界 Fout相比较,若最小的F<Fout,则将最小F值所对应的自变量从模型 中剔除;然后在选中的含p-1个自变量的模型基础上,重复以上剔除 自变量的计算、比较、剔除过程。每次循环剔除一个对模型贡献最 可忽略的变量。如此反复,直到再没有任何变量的F值低于Fout为 止。
多重线性回归分析
(Multiple Linear Regression)
123
多重线性回归模型是直线回归的扩展和延伸,其基本原理 和直线回归相同。
内容提要
§ 1 多重线性回归模型简介 § 2 多重线性回归模型的参数估计 § 3 多重线性回归模型的假设检验 § 4 衡量模型优劣的标准 § 5 自变量的筛选 § 6 多重线性回归模型的应用 § 7 注意事项
Coefficientsa
Unstandardized Coefficients
Standardized Coefficients
Model
1
(Constant)
总胆固醇
甘油三酯
胰岛素
糖化血红蛋白
B 5.943 .142 .351 -.271 .638
a. Dependent Variable: 血糖
♦ 是选择变量的有效方法。
前进法、后退法、逐步回归法的侧重点不
同。
当自变量之间不存在简单线性相关关系时,三种方法计算结果 是一致的。 当自变量之间存在简单线性相关关系时,前进法侧重于向模型 中引入单独作用较强的变量,后退法侧重于引入联合作用较强 的变量,逐步回归法则介于两者之间。
Std. Error 2.829 .366 .204 .121 .243
Beta
.078 .309 -.339 .398
t 2.101 .390 1.721 -2.229 2.623
Sig. .047 .701 .099 .036 .016
衡量模型优劣的标准
1. 复相关系数 2. 确定系数 3. 调整确定系数 4. 剩余标准差
糖糖的的变变化化是是有有统统计计学学意意,检验某个总体偏 回归系数等于0的假设,以判断是否相应的自 变量对回归方程有贡献。
H0:βi = 0 H1:βi ≠ 0
α=0.05
计算检验统计量:
tbi
=
bi Sbi
Sbi:第i个偏回归系数的标准误
假设检验
1. 整体回归效应(即回归方程)的假设 检验(方差分析)
2. 偏回归系数(即各自变量)的假设检
验(t 检验)
1、整体回归效应的假设检验
H0:β0 = β1 = β2 = β4 = 0 H1:回归方程有意义 α =0.05
方法:方差分析
ANOVAb
Model
Sum of Squares df Mean Square F
复相关系数R:表示模型中所有自变量与反应变量
之间线性相关的密切程度。实际上是实测值与估计值y hat 的 简 单 相 关 系 数 。 取 值 范 围 为 ( 0 , 1 ) , 没 有 负 值。是确定系数的算术平方根,即
R = SSR SST
缺点:增加无统计学意义的自变量,R值仍增大。
当回归方程中包含有很多自变量,即使 其中有一些自变量对解释变量变异的贡 献很小,随着回归方程的自变量的增 加,R表现为只增不减。这是复相关系 数的缺点。
Model Summary
Model 1
R .775a
R Square .601
Adjusted R Square .528
Std. Error of the Estimate
2.0095
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇
1、复相关系数
Std. Error 2.829 .366 .204 .121 .243
Beta
.078 .309 -.339 .398
a. Dependent Variable: 血糖
t 2.101 .390 1.721 -2.229 2.623
Sig. .047 .701 .099 .036 .016
问题: 各自变量对反应变量的影响强度怎么比较?
自变量筛选
为确保回归方程包含所有对反应变量有较大影响的自 变量,而把对反应变量关系不大或可有可无的自变量 排除在方程之外,应该进行自变量的选择。 回归模型的正确选择在根本上依赖于专业知识。
1. 自变量筛选的标准与原则 2. 自变量筛选的常用方法
1、自变量筛选的标准与原则
① 残差平方和SSE缩小与确定系数增大 ② 残差均方缩小与调整确定系数增大 ③ Cp统计量
Sig.
1
Regression S13S3R.711
υ回归4
33.428
8.278
.000a
Residual Total
S8S8E.841 S22S2T.552
υ残差22 υ总26
4.038
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇
FF==MMSS回回归归
2、确定系数
复相关系数的平方称为确定系数或决定系数,记 为R2,用以反映线性回归模型能在多大程度上解 释反应变量Y的变异性。
R2 = SSR SST
检验回归方程整体意义的方差分析表
变异来源 自由度 SS
MS
F
P
回归
4 0.06396 0.01599 17.59 <0.0001
残差
19 0.01727 0.00090903
总变异 23 0.08123
R2=0.06396/0.08123=0.7874
确定系数的取值范围为0≤R2≤1。直接反映了 回归方程中所有自变量解释了反应变量总变异 的百分比。其值越接近于1,表示回归模型的拟 合效果越好。
3、调整的确定系数
调整的R2:记为
Ra2
=
R2
−
k(1− R2 ) n − k −1
优优点点::对对回回归归方方程程中中自自变变量量个个数数实实 施施惩惩罚罚,,较较大大的的kk会会使使RR22降降低低。。
4、剩余标准差
♦ 是误差均方MSE的算术平方根,就是残差 的标准差。
♦ 反映了用建立的模型去预测因变量时的精 度。其值越小,说明模型拟合的效果越 好。
♦ 优点:同调整的确定系数
因为k个自变量都具有各自的计量单位以及不
同的变异度,所以不能直接用普通偏回归系 数的数值大小来反映方程中各个自变量对反
应变量Y的贡献大小。
怎么办?
对原始数据进行标准化变换:
X
* i
=
Xi − Xi Si
用标准化的数据进行回归模型的拟合,得到的 回归系数,称为标准化偏回归系数。
意义:通常在有统计学意义的前提下,该系数
Std. Error 2.829 .366 .204 .121 .243
Beta
.078 .309 -.339 .398
a. Dependent Variable: 血糖
t 2.101 .390 1.721 -2.229 2.623
Sig. .047 .701 .099 .036 .016
问题: 各自变量对反应变量的影响强度怎么比较?
X1
5.68 3.79 6.02 4.85 4.60 6.05 4.90 …… 7.98 11.54 5.84 3.84
甘油三脂 (mmol/L)
X2
1.90 1.64 3.56 1.07 2.32 0.64 8.50
……
7.92 10.89 0.92 1.20
胰岛素 (μU/ml)
X3
4.53 7.32 6.95 5.88 4.05 1.42 12.60
2、自变量筛选的常用方法
① 所有可能自变量子集选择 ② Forward:前进法(向前选择法) ③ Backward:后退法(向后剔除法) ④ Stepwise:逐步回归法
无论采用何种选择自变量的方法,都需要对不同的自变量 子集进行比较,计算量很大。Æ 借助统计软件
① 所有可能自变量子集选择
♦ p个变量,所有可能的自变量子集有2p个。 ♦ 根据某种变量的选择准则,通过比较各子
♦ 特点:考虑了自变量的组合作用,选中的自变量数目一般会比前进 法多;当自变量数目较多或某些自变量高度相关时,可能得不出正 确的结果,前进法可以自动去掉高度相关的自变量。
④ 逐步选择法
♦ 是在前述两种方法基础上进行双向筛选的过程,本质上 前进法。即在逐步选择的过程中,把经F检验有意义的变 量引入方程后,又在对已在方程中的自变量进行一次关 于剔除的F检验,保留有统计学意义的变量,而剔除无统 计学意义的变量。反复进行引入、剔除过程,直到既没 有变量被引入,也没有变量被剔除为止。