当前位置:文档之家› 第十三章 多重线性回归与相关

第十三章 多重线性回归与相关


应用多元线性回归的目的
✓考察几个地位平等的影响因素对应变量的影响,如上例 ✓根据X前系数考察主要因素扣除其他干扰因素(不易做 到均衡可比)后的效应,如在研究新药作用时,可将一些 干扰因素纳入多元回归方程。
多元线性回归方程的形式及建立过程
多元线性回归方程的形式及建立过程
多元线性回归方程的形式及建立过程
多重线性回归的概念及其统计描述
应用场合:
定量地刻画一个因变量Y与多个自变量X1,X2,……间
的线性依存关系。
资料要求: 因变量一定是随机变量(LINE); 自变量可以是随机变量,也可以是人为给定的。
多重线性回归的概念及其统计描述
一、数据与模型
表 15-2 27 名糖尿病人的血糖及有关变量的测量结果
Ra2
R2
k(1 R2 ) n k 1
第二节 自变量选择方法
自变量的筛选
选择适当的自变量使得建立的回归模型达到较好的回归 效果。
若将对反映变量无影响或影响很小的自变量引入方程, 会加大计算量并使回归参数的估计和预测精度降低。
若未将对反映变量影响大的自变量包含在模型中,则回 归参数的估计往往是有偏的。
回归模型的正确选择在根本上是依赖与研究问题本身的 专业问题
自变量的筛选
一、自变量筛选的标准与原则 1、残差平方和(SSE)缩小与确定系数(R2)增大
若某一自变量的引入使得SSE缩小很多,说明该变量对Y 的作用大,则引入;否则不被引入。
若某一变量从模型中被剔除后使得SSE增加很多,说明 该变量对Y的作用大,不应剔除;否则剔除。 决定系数R2=1-SSE/SST,它增大与SSE缩小完全等价
方程的评价
1、剩余标准差 反映了回归方程的精度,其值越小说明回归效果越好
S Y|12 k
SSE SST
MS E
方程的评价
2、决定系数
说明所有自变量能解释Y变异的百分比。取值(0,1)
越接近1模型拟合越好
R2 SSR 1 SSE
SST
SST
方程的评价
3、校正决定系数 考虑了自变Байду номын сангаас个数的影响
2.决定系数R2
R2 SS回 133.7107 0.6008 SS总 222.5519
血糖含量变异的60%可由总胆固醇、甘油三酯、 胰岛素和糖化血红蛋白的变异解释。
多重线性回归的假设检验
当只有一个自变量时(直线回归)除了t检验,也 可用方差分析对回归系数进行假设检验
因此有: F ~ F(1,n 2)
3.标准化回归系数
X 'j
Xj Xj Sj
标准化回归方程
标准化回归系数bj’ 的绝对值用来比较各个自变量
Xj 对Y的影响程度大小;绝对值越大影响越大。
标准化回归方程的截距为0。
标准化回归系数与一般回归方程的回归系
数的关系:
b'j b j
l jj l YY
b j
Sj SY
b1'
0.1424
H0 : 1 2 m 0 H1 : j( j 1,2, , m)不全为0。
SS回 b1l1Y b2l 2Y bmlmY
SS残 SS总 SS回
F
SS残
SS回 /(n
/m m
1)
MS 回 MS 残
表 15-3 多元线性回归方差分析表
变异来源 自由度 SS
MS
F
P
总变异 回归 残差
多重线性回归和相关是一个应变量与多个自变量 间联系的线性回归模型和相关关系。是简单线性回归 与相关延续。
多重线性回归的概念及其统计描述
例子 人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟 状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总 胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损 半径与辐射的温度、与照射的时间
复相关系数与偏相关系数
一、决定系数、复相关系数、调整确定系数 1、决定系数
复相关系数与偏相关系数
2、复相关系数
复相关系数与偏相关系数
3、调整决定系数
复相关系数与偏相关系数
二、偏相关系数 复相关系数反映了Y与所有自变量之间的密切程度,但
往往需要了解Y与自变量两两之间的关系或两个自变量间的关系。 每两个变量间都可能存在相关,因此计算每两个变量间
1.5934 2.9257
0.0776
b'2
0.3515
2.5748 2.9257
0.3093
b'3
0.2706
3.6706 2.9257
0.3395
b'4
0.6382
1.8234 2.9257
0.3977
对血糖影响大小的顺序依次为糖化血红蛋白(X4)、 胰岛素(X3)、甘油三酯(X2)与总胆固醇 (X1)。胰 岛素为负向影响。
二、回归参数的估计
多元线性回归方程的形式及建立过程
66.0103 67.3608 - 53.9523 31.3687 67.6962
67.3608 172.3648 - 9.4929 26.7286 89.8025
lij
-
53.9523
- 9.4929
350.3106
-
57.3863
序号 i
总胆固醇 甘油三酯 胰岛素 糖化血红蛋白 血糖
(mmol/L) (mmol/L) (U/ml)
(%)
(mmol/L)
X1
X2
X3
X4
Y
1
5.68
1.90
4.53
8.2
11.2
2
3.79
1.64
7.32
6.9
8.8
3
6.02
3.56
6.95
10.8
12.3
27
3.84
1.20
6.45
9.6
10.4
(mmol/L) (mmol/L) (U/ml)
(%)
(mmol/L)
X1
X2
X3
X4
Y
1
5.68
1.90
4.53
8.2
11.2
2
3.79
1.64
7.32
6.9
8.8
3
6.02
3.56
6.95
10.8
12.3
27
3.84
1.20
6.45
9.6
10.4
Yˆ 5.9433 0.1424X1 0.3515X2 0.2706X3 0.6382X4
多重线性回归的假设检验
二、偏回归系数的假设检验 在回归方程具有统计学意义的情况下,检验某个
总体偏回归系数是否等于零,据以判断其对应的自变量对 回归是否有贡献。
使用t检验
多重线性回归的假设检验
tj
bj Sbj
b1 0.1424 b2 0.3515 b3 0.2706 b4 0.6382 Sb1 0.3656 Sb2 0.2042 Sb3 0.1214 Sb4 0.2433
因变量Y 和多个自变量X1,X2,…,Xi ,…,Xp实施标准化变换后的直
线回归方程中,bi 为(样本)标准偏回归系数。
Yˆ a b1X1 b2 X2 biX bp Xp
复相关系数与偏相关系数
简单相关系数
单纯考虑因变量Y和自变量Xi的直线相关关系,ri为简单相关系数。
复相关系数
刻画因变量Y(随机变量)和一组自变量X1,X2,…,Xi ,…,Xp的线性
复相关系数与偏相关系数
简单回归系数
因变量Y 和自变量Xi的直线回归方程中,b为简单回归系数。
偏回归系数
Y a bXi
因变量Y 和多个自变量X1,X2,…,Xi ,…,Xp的直线回归方程中,bi为
(样本)偏回归系数。
Yˆ a b1X1 b2 X2 bi X bp X p
标准偏回归系数
b1 0.1424 b2 0.3515 b3 0.2706 b4 0.6382
b1 0.1424 b2 0.3515 b3 0.2706 b4 0.6382 X1 5.8126 X2 2.8407 X3 6.1467 X4 9.1185 Y 11.9259
b0 Y (b1X1 b2X2 bmXm) 5.9433
n-1 m
n-m-1
SS 总 SS 回 SS 残
SS 回/m
MS 回/MS 残
SS 残/(n-m-1)
表 15-4 多元线性回归方差分析表
变异来源 自由度 SS
MS
F
总变异
26 222.5519
回归
4 133.7107 33.4277 8.28
残差
22
88.8412 4.0382
P <0.01
F0.01(4,22)=4.31
0.1424 t1 0.3656 0.390 P 0.05
0.3515 t2 0.2042 1.721 P 0.05
0.2706 t3 0.1214 2.229 P 0.05
0.6382 t4 0.2433 2.623
P 0.05
t 0.05/ 2,22 2.074
胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有 线性回归关系。
第十三章 多重线性回归与相关
➢多重线性回归的概念及其统计描述 ➢多重线性回归的假设检验 ➢复相关系数与偏相关系数 ➢自变量筛选 ➢关于多重线性回归的应用
多重线性回归的概念及其统计描述
在医学现象中,影响人的生理、病理现象及疾病 的因素很多,疾病的发生发展往往是多因素作用的结 果,且各因素之间不独立,存在相关性,仅仅进行单 因素研究结果不理想。需进行多因素分析。
相关主题