当前位置:文档之家› 11-多重线性回归分析

11-多重线性回归分析


1个
1个
统计方法
简单线性相关
simple linear correlation
简单线性回归
simple linear regression
多重相关
multiple correlation
多重回归
multiple regression
典则相关
cononical correlation
多元回归
multivariate regression
量x 取值均为0时,y的平均估计值。
➢bi:变量xi的偏回归系数(partial regression coefficient),
是总体参数βi 的估计值;指在方程中其它自变量固定 不变的情况下, xi 每增加或减少一个计量单位,反应 变量Y 平均变化 bi个单位。
Yˆ b0 b1X1 b2 X 2 ... bp X p
问题:对NO浓度的贡献,哪个因素作用的大一点, 哪个小一些?
回归系数的标准化:
1.自变量数据的标准化: 2.求标准化偏回归系数:
X
' i
Xi Xi Si
用标准化的数据进行回归模型的拟合,算出它的方程,
此时所获得的偏回归系数b’,叫~。
b’无单位,可用来比较各个自变量对反应变量的贡献大小
比较:
未标准化的回归系数(偏回归系数):用来构建回归 方程,即方程中各自变量的斜率。
计值 Yˆ 之间的残差(样
本点到直线的垂直距离) 平方和达到最小。 .
两个自变量时回归平面示意图
通过SPSS等统计软件,拟合X1、X2 、X3 、X4关于空 气中NO浓度的多重线性回归方程,得:
Y 0.142 0.116X1 0.004X 2 6.55106 X3 0.035X 4
还需要解决的三个问题:
多重线性回归:是研究一个因变量和多个自变量
之间线性关系的统计学分析方法。
目的:用回归方程的方式定量地描述一个因变量Y 和
多个自变量X1、 X2、 X3、… 、Xp 之间 的线性依存关
系。
常用的回归分析中分类:
回归分析 两个因变量 (结局分类变量+时间)
1个因变量Y

生存分析
Y是数值
Cox回归
变量
Y是分类
1个自变量X

2个以上自变量X
型变量


简单回归
多重回归
Logistic 回归
Simple regression Multiple regression Logistic regression
线性回归
曲线回归
概念区分:
自变量X 因变量Y
单因单果
1个
1个
多因单果
多个
1个
多因多果
多个 多个
单因单果
(扣除其它变量影响)
➢方法:单因素方差分析。
回归系数的假设检验:
➢目的:即检验各个偏回归体系数βi是
否为0;
➢方法:t 检验。
(1) 回归方程的假设检验: Yˆ b0 b1X1 b2 X 2 ... bp X p
总的来说,若该回归方程成立,则这些回归系数里 面至少有一个不为0,只要有一个不为0,这个方程
来说总的就是成立的。
11 多重线性回归分析
生物医学研究领域中多因素相互作用现象非常普遍…
身高:不仅受到遗传因素的影响,而且还受到营养状 况、体育锻炼情况、居住环境因素的作用;
血压:除了与年龄有关外,还与家族史、饮食习惯、 劳动强度等因素有关。
问题:在影响疾病众多因素中,哪些是主要因素? 各个因素作用有多大?
由于涉及到的自变量 X 的增多,变量间的关系 变的复杂?
多重线性回归 (multiple linar regression)
2. 模型的基本结构:Y 0 1X1 2 X 2 ... p X p
Yˆ b0 b1X1 b2 X 2 ... bp X p
➢ 称 Yˆ 为y 的预测值,指对于某个确定x的群体,y 平
均值的估计。
➢ b0:常数项(constant),截距 ( intercept );即所有自变
就总体而言,这种回归关系是否存在?即总体回归方程 是否成立?
回归方程的效果如何?也即这四个变量能解释反应变量 Y的百分比是多少?
四个自变量是否对反应变量Y的影响都有意义?
统计推断——假设检验
统计推断:
假设检验
回归方程的假设检验(model test):
➢目的:ቤተ መጻሕፍቲ ባይዱ验求得的回归方程在总体中是
否成立,即是否至少有一个βi≠ 0;
估计b0、 b1、 b2 …、bP
最小二乘法
回归方程和系数 β的假设检验
方差分析和 t 检验
列出回归方程,统计应用
Yˆ b0 b1X1 b2 X 2 ... bp X p
预测和控制、影响因素分析
回归参数的估计:最小二乘估计 (least square estimation)
❖用 最 小 二 乘 法 拟 合 直 线,使得反应变量观测 值Yi与回归方程求得估
标准化的回归系数:用于综合评价各解释变量对因变 量Y的贡献大小,标准化的回归系数越大,说明X对Y 的影响幅度越大。
3. 多重线性回归分析的基本步骤:
关联趋势的图形考察
散点图、散点图矩阵、 重叠/三维散点图
建模准备
确定变量筛选的方法 数据预处理:强影响点用多重共线性 模型诊断:残差分析是否适合该模型(Line)
何预测?效果如何? 如果想在控制气温、气湿和风速的条件下,如何定
量地描述NO浓度与车流量的关系?
1. 多重线性回归适用条件
仅适用于1个应变量 y和多个自变量 x。 要求1个应变量 y和该组因变量 x 间满足线性、
独立性、正态性、方差齐性的要求。 注意样本中的极端值,必要时可剔除或进行变
量变换。
H0:β1=β2=β3=…=βi=0 H1:至少有一个 βi ≠ 0
问题:通过假设检验方程总的来说成立, 1.即至少有1个βi 不为0,但到底哪些为0,哪些不为0? 2.再者,即使总体回归系数为零,也可能得到样本
偏回归系数不为0的情况。
(2)对各个回归系数进行假设检验
部分偏相关
partial correlation
11.1 多重线性回归的概述
例12-1 :试对大气污染一氧化氮(NO)的浓度和汽 车流量、气温、气湿、风速等的关系进行回归分析。
多重线性回归拟回答以下问题:
车流量、气温、气湿、风速4因素是否都对空气中 NO的浓度有影响?
如何定量地描述这种影响? 哪个因素对NO的影响最大?哪个因素影响的最小? 如何利用这些影响因素去预测空气中NO的浓度?如
相关主题