当前位置:文档之家› 多元线性回归分析

多元线性回归分析


多元线性回归模型方差分析表
Source
Sum of Square
df
Mean Square
F-value
p-value
regression y on x1,…,xk
SSreg
k
MSreg=SSreg /k F=MSreg / MSE ~F(k,n-k-1)
Error
SSE
n-k-1
MSE=SSE / (n-k-1)
内容
• • • • • • •
概述 基本原理 数学模型 方法步骤 逐步回归方法 多元相关分析 应用
1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)
它们的共同特点是每一步只引入或剔除一个自变量。决 定引入或剔除基于对偏回归平方和的F检验。
Y对每一个自变量作直 线回归, 线回归,对回归平方 和最大的自变量作F检 有意义( 验,有意义(P小)则 引入。 引入。
特点和要求
偏回归平方和最小的变 检验及相应的P 量,作F检验及相应的P 决定它是否剔除( 值,决定它是否剔除(P 大) 。 建立新的回归方程。重 建立新的回归方程。 复上述过程。 复上述过程。
Fj =
SS回 − SS回(− j) SS残 (n − p −1 )
;ν1 =1ν2 = n − p −1 ;
前进法
后退法
逐步回归法
变量进出方程的过程
自变量从无到有、 自变量从无到有、从 少到多
先将全部自变量放入方 程,然后逐步剔除
双向筛选 ;引入有意 义的变量(前进法), 义的变量(前进法), 剔除无意义变量( 剔除无意义变量(后 退法) 退法) 小样本检验水准a 小样本检验水准a定为 0.10或0.15, 0.10或0.15,大样本 把值定为0.05 0.05。 把值定为0.05。值越 小表示选取自变量的 标准越严。 标准越严。 注意,引入变量的检 注意, 验水准要小于或等于 剔除变量的检验水准。 剔除变量的检验水准。
1 x11 1 x 21 x= 1 M 1 xn1
L x1k L x2 k L M L xnk
β0 β β = 1 M β k
e1 e e = 2 M en
y = xβ + e
采用最小二乘法
内容
• • • • • • •
概述 基本原理 数学模型 方法步骤 逐步回归方法 多元相关分析 应用
- 实例分析
为了了解和预测人体吸入氧气的效率,收集了30名中年 男性的健康状况调查资料。共调查了7个指标,它们是:吸氧 的效率(y),年龄(x1),体重(x2),跑1.5公里所需的时间(x3)--以分钟计算,休息时的心跳次数(x4),跑步时的心跳率(x5), 和最高心跳率(x6),数据列在表中。该问题中吸氧的效率(y) 是因变量,其余6个变量是自变量。试用多元回归分析建立预 测人体吸氧效率的模型。
多元线性回归分析
内容
• • • • • • •
概述 基本原理 数学模型 方法步骤 逐步回归方法 多元相关分析 应用
内容
• 概述
- 问题 - 解决方案
• • • • • •
基本原理 数学模型 方法步骤 逐步回归方法 多元相关分析 应用
多因子方差分析 多元线性回归分析 广义线性模型分析
多元Logistic 回归分析 多元 Poisson回归模型分析 回归模型分析 对数线性模型分析
Q = ∑ e = e e = ( y − xβ ) ( y − xβ )
i =1 2 i T T
n
b=β = x x
T
)
( )
−1
x y
T
偏回归系数估计
1 T ( y − xb) ( y − xb) s =σ = n − k −1 残差的标准差估计 )
aij = x x
T
( )
−1
sbj = s a jj
概述 基本原理 数学模型 方法步骤 逐步回归方法 多元相关分析 应用
1)确定多个指标变量与一个反应变量之间的线性关系。例如,温度,湿度以 及大气污染物的浓度与发病率的关系。 2)筛选疾病的危险因素和有利于健康的健康促进因素。例如,在肿瘤、冠心 病等疾病的病因研究中,应用多元线性回归分析,可以从众多的相关因素中筛选 出疾病的主要危险因素,并估计出这些危险因素的对引起疾病发生的相对重要程 度。 3)从较易测得的自变量来推测较难测得的自变量。例如,从健康人测得的身 高,体重,年龄和身体的表面积的数据回归得到的模型可以用来估计烧伤病人的 身体表面积。 4)从已发生的x来预测将发生的y。例如,根据病人手术后所观察的一些指标 和手术后的存活时间,建立手术后存活时间与这些指标之间的多元回归方程,可 以预测其它同类型病人手术后的生存时间。 5)用于建立专家辅助诊断系统。利用著名医生诊断疾病的各项检验指标和诊 断结果,建立各种疾病的发病率或死亡率和这些指标之间的关系,其他人可以借 助这个模型分析病情,这就是专家辅助诊断系统。
偏相关系数
r12,34 =
(1 − r )(1 − r )
2 14 , 3 2 24 , 3
r12,3 − r14,3 r24,3
r12,3 =
(1 − r )(1 − r )
2 13 2 23
r12 − r13r23
几个相关系数的区别 简单相关系数
复相关系数
偏相关系数
内容
• • • • • • •
Total
SST
n-1
模型诊断 多重共线性检验 自变量间存在着相关关系,使一个或几个 自变量可以由另外的自变量线性表示时, 称为该变量与另外的自变量间存在有共线 性(multicollinearity)。
多重共线性的识别与解决办法 回归系数的符号与专业知识不符 变量的重要性与专业不符 R2高,但各自变量对应的回归系数均不显著 方差膨胀因子(Variance Inflation Factors ,VIF) >10 - 筛选自变量 - 用主成分回归 - 岭回归
在此基础上,计算其 在此基础上, 它自变量的偏回归平 方和, 方和,选取偏回归平 方和最大者作F检 验,…。 即后续变量的引入可 能会使先进入方程的 自变量变得不重要。 自变量变得不重要。
自变量高度相关时, 自变量高度相关时,可 能得不出正确的结果 。
局限性
内容
• • • • • • •
概述 基本原理 数学模型 方法步骤 逐步回归方法 多元相关分析 应用
生存分析 时间序列分析 广义估计模型
推断性统计学分析(其他)
典型相关分析 多变量方差分析
主成分分析 聚类分析 判别分析
路径分析 因子分析 结构方程模型分析
x
y
ε
一元回归分析
x1 x2 x3 y ε 多元回归分析
x1 y1 x2 y2 x3 ε2 多变量回归分析 ε1
ε1
x1 y1 x2 y3 x3 y2 x4 路径分析 ε2 ε3
∑ (y
i
− y) y ) + ∑ ( yi − yi )
SS总 = SS回 + SS剩
SS回 / k F= SS剩 / (n − k − 1)
复确定系数 调整复确定系数
SS R = 回 SS总
2
R
2
adj
SS剩 / (n − k − 1) = 1− SS总 / (n − 1)
X1 44 40 44 42 38 47 40 43 44 38 44 45 45 47 54 49
x2 89.47 75.07 85.84 68.15 89.02 77.45 75.98 81.19 81.42 81.87 73.03 87.66 66.45 79.15 83.12 81.42
x3 11.37 10.07 8.65 8.17 9.22 11.63 11.95 10.85 13.08 8.63 10.13 14.03 11.12 10.60 10.33 8.95
模型中缺乏重要变量
结果误导
y = β0 + β1 x1 + ... + βm xm + ε
自变量的数量化 (1)自变量为连续型变量 (必要时作变换) (2)自变量为有序变量(依次赋值,如疗效好中差,可分别赋值3、2、1) (3)自变量为二分类(可令男=1,女=0) (4)自变量为名义分类(需要采用哑变量(dummy variables)进行编码)
Y 40.836 46.672 46.774 50.388 39.407 46.080 45.441 54.625 45.118 39.203 45.790 50.545 48.673 47.920 47.467
x1 51 51 48 49 57 54 56 50 51 54 51 57 49 48 52
吸氧效率调查数据
无法显示图像。计算机可能没有足够的内存以打开该图像,也可能是该图像已损坏。请重新启动计算机,然后重新打开该文件。如果仍然显示红色 “x” ,则可能需要删除该图像,然后重新将其插入。
y 44.609 45.313 54.297 59.571 49.874 44.811 45.681 49.091 39.442 60.055 50.541 37.388 44.754 47.273 51.855 49.156
x4 62 62 45 40 55 58 70 64 63 48 45 56 51 47 50 44
x5 178 185 156 166 178 176 176 162 174 170 168 186 176 162 166 180
x6 182 185 168 172 180 176 180 170 176 186 168 192 176 164 170 185
相关主题