当前位置:
文档之家› 多重线性回归与多元逐步回归 统计学
多重线性回归与多元逐步回归 统计学
H0 :
i 0
H1 :
0.05
i 0
• 检验统计量为
bi t bi S bi
其中, Sbi 是第 i 个偏回归系数的标准误
车流量、气温、风速对一氧化氮浓度的影响有统计学意义( P 0.05 ), )。 P 0.05 但是气湿的影响没有统计学意义( )。
标准偏回归系数 Standardized partial regression coefficient
• • •
第一节 多重线性回归
概 念
• 多重线性回归(multiple linear regression) • 因变量: 一个, Y • 自变量: 多个, X1, X2, X3, … , Xp
方程:
ˆ b b X b X ... b X Y 0 1 1 2 2 p p
• • • •
2 总 i
ˆ i 与实际观察值 y 之间 • 根据回归方程计算得到的预测值 y i ˆ) 的差异称为残差,记残差的离均差平方和为 SS ( y y , 它反映了的变异中不能由回归解释的部分,其自由度记为 n p 1 ,P 为自变量个数。
2 残 i i
E
把 SS总 与 SS 之差记为回归平方和 SS回归 ,它反应了回归模 型的贡献,即车流量、气温、气湿和风速等因素对一氧化 氮浓度的影响,其自由度记为 p 。
y| x X
给定X的数值,
Y 的数值取在一个平均值 (y|x)附近
对应于不同的X值, Y 的平均值座落在一条直线上
---- 回归直线.
y|x 和 X的关系可用一个线性方程描写.
简单线性回归方程 总体
样本
Y
X
X
ˆ a bX Y
“Y hat”表示估计值,给定x时y的总体均数 的估计值。
–给定X取值时,Y的取值服从正态分布
• 等方差(Equal variance)
–指对应于不同的X值,Y值的总体变异相同
直线回归应用条件LINE示意图
回归方程有统计学意义吗
•
建立样本直线回归方程,只是完成了统 计分析中两变量关系的统计描述,这种关 系是否有统计学意义,还需要进一步进行 假设检验。
–检验回归模型是否成立:方差分析 –检验总体回归系数β是否为零:t检验
• 如果要建立由车流量( X 1 )和风速( X 4 )预测 一氧化氮浓度(Y)的线性回归方程,模型可以 写成:
ˆ b b X b X Y 0 1 1 4 4
估计空气中一氧化氮的浓度平均改变 b4 个单位(ppm)。
b4 表示在车流量不变的情况下,风速每增加一个单位(1m/s),
表13-1 多重线性回归分析数据格式
SPSS实现方法: • Analyze---Regression---Linear---
y选入Dependent
x1、x2、X3...XP选入Independent Method--- Enter Stepwise Backward
Forward
---ok
ˆ 0.142 0.116X 0.004X 6.55106 X 0.035X Y 1 2 3 4
例号 1 2 ┇ n
X1 X11 X21 ┇ Xn1
X2 X12 X22 ┇ X n2
… … … … …
Xm X1m X2m ┇ Xnm
Y Y1 Y2 ┇ Yn
前提条件(LINE)
多重线性回归模型应满足以下条件:
(1) Y 与 X 1 , X 2 , X m 之间具有线性关系; (2)各观测值 Y j j 1,2,, n 之间相互独立; (3)残差 服从均数为 0、方差为 2 的正态分布, 它等价于对于任意一组自变量 X 1 , X 2 , X m ,应 变量 Y 均服从正态分布且方差齐。
i 1 n
MS总 SS总 /( n 1)
表13-3 检验回归方程整体意义的方差分析表
变异来源 回归 残差
总
自由度 4 19
23
SS
MS
F
P
0.064 0.017
0.081
0.016 0.001
17.59
<.001
表中 P 值小于0.001,按照0.05的检验水准,可以拒绝 H 0
认为所建立的回归方程是有意义的。用这四个自变量构 成的回归方程解释空气中一氧化氮浓度的变化是有意义的。
i i 2 i
a y bx
这条线一定过两个点 ( x , y ) 和 (0, a )
线性回归分析的前提条件
• 线性(Linear)
–反应变量Y与自变量X呈线性变化趋势
• 独立(Independent)
–任意两个观察值相互独立,一个个体的取值 不受其他个体的影响
• 给定X时,Y正态分布(Normal)
多元线性回归(multi- variate linear regression) 简称多元回归(multi- variate regression): 因变量: 多个, Y1,Y2 , … 自变量: 多个, X1, X2, X3, … 方程:
ˆ b b X b X ... b X Y 1 10 11 1 12 2 1p p
统计推断
• 这个回归方程有统计学意义吗?
H 0 : 1 2 ... p 0 , H1 : 1 , 2 ,..., p 不全为0
• • • • • •
回归的目的:估计 Y X H0成立时, 只能用Y的均数 y 来估计 Y X 2 残差: SS总 ( yi y) , 自由度= n 1 H1成立时, 给定 x i 可以用 yi 来估计 Y X ˆi )2 , 自由度= n p 1 残差: SS残 ( yi y 残差减少了 SS总 SS残 SS回
33
调整的确定系数(adjusted
2 ad
2 2 R R , ad
)
MS残差 SS残差 / n p 1 n 1 R 1 1 1 1 R2 MS总 SS总 / n 1 n p 1
3) 剩余标准差或标准估计误差 (standard error of estimate)。 它反映了应变量在扣除自变量的线性影 响后的离散程度; 剩余标准差越接近于 0, 说明回归方程 效果越好。
ˆ b b X b X ... b X Y 2 20 21 1 22 2 2p p
多重线性回归方程
• 多重线性回归方程是简单线性回归方程的扩展
Y |x1 , x2 ,...,x p 0 1 X 1 2 X 2 p X p
其中 0 表示当所有自变量为0时反应变量Y的总体平均值。i 为 变量Xi 的总体偏回归系数(partial regression coefficient),表 示当方程中其他自变量保持常量时,自变量Xi每增加(或减少) 一个计量单位,反应变量Y平均变化 i 个单位。
复相关系数 (coefficient of multiple correlation)
又称多重相关系数
R 决定系数
----这是 Y 和 (X1,X2,…, Xm) 相关系数
上例,
R 0.79 0.89
回归系数的假设检验
• 由于存在抽样误差,即使总体偏回归系数为零,也可能 得到样本偏回归系数不为零的情形,因此需要对偏回归 系数进行假设检验,以推断总体偏回归系数是否为零 。
残差
回
表13-2 方差分析表
变 异 来 源 回 归
DF
SS
MS
F
P
p
ˆi y )2 SS回归 ( y
MS回归 SS回归 / p MS误差 SS误差 /( n p 1)
MS回归 / MS误差
误 n- p -1 差 总 n-1
ˆi )2 SS误差 ( yi y
SS总 ( yi y ) 2
直线回归方程的求解:最小二乘原理
ˆ a bX Y
Y
i
ˆ Y i
Y
X
回归系数及其计算
找一条直线使残差平方和最小
2 ˆ ( y y ) 最小
利用微积分知识,容易得到
b l xy l xx ( x x )( y y ) (x x) ˆ a bX Y
ˆ i y ) 2 SS回 ( y
自由度= p
---- 这是回归模型的贡献
方差分析的基本思想
• 总变异:把反应变量的观察值的离均差平方和
记为 SS ( y y) ,它反映了没有利用自变量 的信息时的观察值的变异性,即没有考虑车流 量、气温、气湿和风速等因素的情况下一氧化 氮浓度的变异的大小,其自由度记为 总 n 1 (n为样本量)。
考虑:
• 当建立样本回归方程后,首先要考察这个回归方程是否 X 4 中,是否至少存在一个 X 2 ,X 3 , 有意义?即在, X 1 , 自变量与Y的总体均数呈线性关系? • 回归方程的效果如何?也即是这四个自变量能够解释反 应变量的变异的百分比是多少? • 四个自变量是否都对反应变量有影响?即各个偏回归系 数( b1 , b2 , b3 , b4 )所对应的总体偏回归系数( 1 , 2 , 3 , 4 ) 是否等于0?
• 例1: • 某研究者研究大气污染物一氧化氮(NO) 的浓度(ppm)与汽车流量(千辆)、气 温(℃)、空气湿度(%)、风速(m/s) 等因素的关系,结果见表1:
•
单位时间内过往的汽车数(千辆)、气温(℃)、空气湿 度(%)、风速(m/s)这四个因素是否都对空气中一氧化 氮(NO)的浓度(ppm)有影响? 如何定量地描述这些因素对一氧化氮浓度的影响? 哪个因素对一氧化氮浓度的影响最大?哪个因素的影响最 小? 如果利用这些影响因素去预测空气中一氧化氮的浓度,如 何预测?效果如何?