当前位置:
文档之家› 13-多重线性回归分析(7年制).
13-多重线性回归分析(7年制).
表13-1所示。
【案例解析】
资料类型:定量资料 目的:了解糖尿病患者体内脂联素水平与BMI、
病程DY、瘦素LEP、空腹血糖FPG等因素的依 存关系;即多个自变量与一个因变量的关系。
多重线性回归
13.1.1 数据与模型
多重线性回归分析 muttiple linear regression
:研究的是多个自变量如何直接影响一个因变量。 即用回归方程的方式定量地描述一个因变量Y 和多个
测或控制另一个特定变量的取值,并给出这种预测或 控制的精确程度。
多重线性回归分析
13.1 多重线性回归的概念及其统计描述 13.2 多重线性回归的假设检验 13.3 复相关系数与偏相关系数 13.4 自变量筛选 13.5 多重线性回归的应用及注意事项
13.1 多重线性回归的概念 及其统计描述
例13.1 为了研究有关糖尿病患者体内脂联素水平的影响因素, 某医师测定了30名患者的BMI(kg/m2)、病程DY(年)、瘦素LEP (ng/ml)、空腹血糖FPG(mmol/L)及脂联素ADI(ng/ml)水平,数据如
表示在方程中其它自变量固定不变的情况下,Xj每增 加或减少一个计量单位,反应变量Y的平均变化 bi 个单 位。
13.1.2偏回归系数的估计
问题:对患者体内脂联素水平,哪个因素作用的大一点, 哪个小一些?
Yˆ b0 b1 X1 b2 X 2 ... bp X p
回归系数的标准化:
为了估计模型中的未知参数,需要从总体中随 机抽取一个样本,从而求得样本回归方程:
Yˆ b0 b1X1 b2 X2 ... bp X p
Yˆ是反应变量Y的总体平均值Y
X1,X 2,...,
的估计值
XP
b0:截距参数,常数项;是总体参数β0 的估计值。
bi:变量Xj的偏回归系数(partial regression coefficient), 是总体参数βi 的估计值
自变量X1、 X2、 X3、… 、Xn 之间 的线性依存关系。
分 一元 线性回归:仅涉及1个因变量、反应变量。
类
多元线性回归 multivariate linear regression
:涉及多个因变量、反应变量时称~。
如何定量地描述两者的关系:
基本目的
用 1 个以上的自变量X,它们的数据来估计反应变量 Y,即脂联素水平及其变异性的统计学分析方法。
第十三章
多重线性回归与相关
李琳琳 博士 公卫学院统计教研室A510
生物医学研究领域中多因素相互作用现象非常普遍
身高:不仅受到遗传因素的影响,而且还受到营 养状况、体育锻炼情况、居住环境因素的作用;
血压:除了与年龄有关外,还与家族史、饮食习 惯、劳动强度等因素有关;
生存质量:受生理、心理、社会关系、环境等多 因素的影响。
1.自变量数据的标准化: 2.求标准化偏回归系数:
X
' i
Xi Xi Si
用标准化的数据进行回归模型的拟合,算出它的方程,
此时所获得的偏回归系数b’,叫~。
b’无单位,可用来比较各个自变量对反应变量的贡献大小
比较:
未标准化的回归系数(偏回归系数):用来构 建回归方程,即方程中各自变量的斜率。
指任意两 个观察值 互相独立
在一定范围内任 在一定范围内,
意给定各个X值, 对应于不同X值,
则反应变量Y服 Y总体变异保持
从正态分布
不变
11.2.2.2 回归参数的估计: 最小二乘估计
least square estimation
两个自变量时,回 归平面示意图
用最小二乘法拟合直线,使得反应变量观测值Yi与回归 方程求得估计值 Yˆ 之间的残差(样本点到直线的垂直距离)
标准化的回归系数:用于综合评价各解释变量 对因变量Y的贡献大小,标准化的回归系数越 大,说明X对Y 的影响幅度越大。
线性回归分析的前题条件
line
linear 线性
independent 独立性
normal 正态性
equal variance 等方差性
反应变量Y 的 总体平均值与 自变量组合之 间呈线性关系
估计参数:β0、 β1、 β2、…、 βP 回归方程的假设检验
最小二乘法 F 检验
回归系数 β的假设检验
t 检验
列出回归方程 Yˆ b0 b1X1 b2 X 2 ... bp X p
回归方程的统计应用
所以,拟合X1、X2 、X3 、X4关于患者脂联素水平的 多重线性回归方程,得:
假设检验
回归方程的假设检验(model test):
目的:检验求得的回归方程在总体中是
否成立,即是否至少有一个βi≠ 0;
方法:单因素方差分析。
平方和达到最小。
由于自变量的增加计算量加大我们只 有借助计算机统计软件来完成
本例题的回归方程如下:
Yˆ 58.1991.030X1 0.132X2 0.811X3 0.579X4
问题:我们能不能根据回归方程下结论?
1性回归分析的基本步骤:
多重线性回归分析
回归分析的主要目的:
就是研究固定自变量X的情况下,因变量Y的总 体均数与X之间的回归关系;即:
从一组样本数据出发,确定变量之间的回归关系式; 对这些关系式的可信程度进行各种统计检验,并从影
响因变量的诸多变量中找出具有统计学意义的变量;
利用所求的关系式,根据一个或几个变量的取值来预
数模:Y X1, X2,...,X n 0 1X1 2 X2 ... p X p
β0:截距参数,是常数项。 βi:变量Xj的总体偏回归系数(partial regression coefficient)
表示在其它自变量固定不变的情况下,Xj每增加或减少一个 计量单位,反应变量Y的平均变化 βi 个单位,或说所引起应变 量Y的平均改变量为βi个单位。
Yˆ 58.1991.030X1 0.132X2 0.811X3 0.579X4
还需要解决的三个问题:
就总体而言,这种回归关系是否存在?即总体回归方程 是否成立?
回归方程的效果如何?也即这四个变量能解释反应变量 Y的百分比是多少?
四个自变量是否对反应变量Y的影响都有意义?
统计推断——假设检验